pyspark.SparkContext.textFile¶
-
SparkContext。
文本文件
( 的名字:str,minPartitions:可選(int]=沒有一個,use_unicode:bool=真正的 )→pyspark.rdd.RDD(str] ¶ -
從HDFS讀取一個文本文件,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI,並返回一個字符串抽樣。文本文件必須編碼為utf - 8。
如果use_unicode是假的,字符串將被保留str(編碼utf - 8),這是更快,小於unicode。(1.2中添加火花)
例子
> > >路徑=操作係統。路徑。加入(tempdir,“sample-text.txt”)> > >與開放(路徑,“w”)作為測試文件:…_=測試文件。寫(“Hello world !”)> > >文本文件=sc。文本文件(路徑)> > >文本文件。收集()(“Hello world !”)