pyspark.SparkContext.textFile¶

SparkContext。 文本文件 ( 的名字:str,minPartitions:可選(int]=沒有一個,use_unicode:bool=真正的 )→pyspark.rdd.RDD(str] ¶

從HDFS讀取一個文本文件,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI,並返回一個字符串抽樣。文本文件必須編碼為utf - 8。

如果use_unicode是假的,字符串將被保留str(編碼utf - 8),這是更快,小於unicode。(1.2中添加火花)

例子

           > > >路徑=操作係統。路徑。加入(tempdir,“sample-text.txt”)> > >與開放(路徑,“w”)作為測試文件:…_=測試文件。寫(“Hello world !”)> > >文本文件=sc。文本文件(路徑)> > >文本文件。收集()(“Hello world !”)
          

以前的

pyspark.SparkContext.stop

下一個

pyspark.SparkContext.uiWebUrl