pyspark.SparkContext.textFile

SparkContext。 文本文件 ( 的名字:str,minPartitions:可選(int]=沒有一個,use_unicode:bool=真正的 )→pyspark.rdd.RDD(str]

從HDFS讀取一個文本文件,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI,並返回一個字符串抽樣。文本文件必須編碼為utf - 8。

如果use_unicode是假的,字符串將被保留str(編碼utf - 8),這是更快,小於unicode。(1.2中添加火花)

例子

> > >路徑=操作係統路徑加入(tempdir,“sample-text.txt”)> > >開放(路徑,“w”)作為測試文件:_=測試文件(“Hello world !”)> > >文本文件=sc文本文件(路徑)> > >文本文件收集()(“Hello world !”)