pyspark.SparkContext.sequenceFile¶
-
SparkContext。
sequenceFile
( 路徑:str,keyClass:可選(str]=沒有一個,valueClass:可選(str]=沒有一個,keyConverter:可選(str]=沒有一個,valueConverter:可選(str]=沒有一個,minSplits:可選(int]=沒有一個,batchSize:int=0 )→pyspark.rdd.RDD(元組(T,U] ] ¶ -
讀了Hadoop SequenceFile任意鍵和值可寫的類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。機理如下:
創建一個Java抽樣從SequenceFile或其他InputFormat,鍵和值可寫的類
序列化是試圖通過泡菜酸洗
如果失敗,回退是調用toString每個鍵和值
CPickleSerializer
用於反序列化醃在Python對象
- 參數
-
- 路徑 str
-
路徑sequencefile
- keyClass: str,可選的
-
關鍵可寫的類的完全限定類名(例如“org.apache.hadoop.io.Text”)
- valueClass str,可選
-
價值寫的類的完全限定類名(例如“org.apache.hadoop.io.LongWritable”)
- keyConverter str,可選
-
函數的返回鍵WritableConverter全限定名
- valueConverter str,可選
-
完全qualifiedname WritableConverter函數的返回值
- minSplits int,可選
-
最低分割數據集(默認最小(2,sc.defaultParallelism))
- batchSize int,可選
-
Python對象的數量表示為一個Java對象。(默認值0,選擇batchSize自動)