pyspark.SparkContext.newAPIHadoopFile¶
-
SparkContext。
newAPIHadoopFile
( 路徑:str,inputFormatClass:str,keyClass:str,valueClass:str,keyConverter:可選(str]=沒有一個,valueConverter:可選(str]=沒有一個,相依:可選(Dict(str,str]]=沒有一個,batchSize:int=0 )→pyspark.rdd.RDD(元組(T,U] ] ¶ -
閱讀的新API具有任意鍵和值的Hadoop InputFormat類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。的機製是一樣的
SparkContext.sequenceFile ()
。Hadoop的配置可以通過Python字典這將被轉換成Java配置
- 參數
-
- 路徑 str
-
Hadoop文件路徑
- inputFormatClass str
-
完全限定類名的Hadoop InputFormat(例如“org.apache.hadoop.mapreduce.lib.input.TextInputFormat”)
- keyClass str
-
關鍵可寫的類的完全限定類名(例如“org.apache.hadoop.io.Text”)
- valueClass str
-
價值寫的類的完全限定類名(例如“org.apache.hadoop.io.LongWritable”)
- keyConverter str,可選
-
完全限定名稱的函數返回鍵WritableConverter默認情況下沒有
- valueConverter str,可選
-
完全限定名稱的函數返回值WritableConverter默認情況下沒有
- 相依 東西,可選
-
Hadoop的配置,通過傳遞dict默認情況下沒有
- batchSize int,可選
-
Python對象的數量表示為一個Java對象。(默認值0,選擇batchSize自動)