pyspark.SparkContext.newAPIHadoopRDD¶

SparkContext。 newAPIHadoopRDD ( inputFormatClass:str,keyClass:str,valueClass:str,keyConverter:可選(str]=沒有一個,valueConverter:可選(str]=沒有一個,相依:可選(Dict(str,str]]=沒有一個,batchSize:int=0 )→pyspark.rdd.RDD(元組(T,U] ] ¶

閱讀的新API具有任意鍵和值的Hadoop InputFormat類,從任意Hadoop配置,這是作為一個Python字典傳遞這將被轉換成Java配置。的機製是一樣的SparkContext.sequenceFile ()。

參數

inputFormatClass str: 完全限定類名的Hadoop InputFormat(例如“org.apache.hadoop.mapreduce.lib.input.TextInputFormat”)
keyClass str: 關鍵可寫的類的完全限定類名(例如“org.apache.hadoop.io.Text”)
valueClass str: 價值寫的類的完全限定類名(例如“org.apache.hadoop.io.LongWritable”)
keyConverter str,可選: 完全限定名稱的函數返回鍵WritableConverter(默認沒有)
valueConverter str,可選: 完全限定名稱的函數返回值WritableConverter(默認情況下沒有一個)
相依東西,可選: Hadoop的配置,通過傳遞dict類型(默認情況下沒有一個)
batchSize int,可選: Python對象的數量表示為一個Java對象。(默認值0,選擇batchSize自動)

以前的

pyspark.SparkContext.newAPIHadoopFile

下一個

pyspark.SparkContext.parallelize