pyspark.RDD

pyspark。 抽樣 ( jrdd:JavaObject,ctx:SparkContext,jrdd_deserializer:pyspark.serializers.Serializer=AutoBatchedSerializer (CloudPickleSerializer ()) )

一個彈性分布式數據集(抽樣),火花的基本抽象。代表一個不可變的,分區集合的元素可以在並行操作。

方法

(seqOp zeroValue combOp)

集合的元素每個分區,然後所有的分區結果,使用給定的組合功能和一個中立的“零價值。”

aggregateByKey(seqFunc zeroValue combFunc)

聚合每個鍵的值,使用組合函數和一個中立的“零值”。

障礙()

標誌著當前階段作為一個障礙階段,火花必須共同推出所有任務。

緩存()

堅持這個抽樣與默認的存儲水平(MEMORY_ONLY)。

笛卡兒(其他)

返回這個抽樣的笛卡兒積和另一個,也就是說,對所有元素的抽樣(一個b)在哪裏一個是在自我b是在其他

檢查點()

馬克這對檢查點抽樣。

cleanShuffleDependencies((阻塞))

刪除一個抽樣的震蕩和non-persisted祖先。

合並(numPartitions[,洗牌])

返回一個新的抽樣降低numPartitions分區。

cogroup(其他[numPartitions])

為每個關鍵k自我其他,返回一個抽樣結果,其中包含的元組的值列表的關鍵自我以及其他

收集()

返回一個列表,其中包含所有的元素在這個抽樣。

collectAsMap()

返回鍵值在這個抽樣到主字典。

collectWithJobGroup(groupId,描述[…])

收集抽樣時,使用這種方法來指定工作小組。

combineByKey(mergeValue createCombiner…)

泛型函數結合的元素為每個聚合函數的主要使用一個自定義組。

()

返回元素的數量在這個抽樣。

countApprox(超時,信心)

近似的版本數(),它返回一個潛在的不完整的結果在一個超時,即使不是所有任務都完成了。

countApproxDistinct([relativeSD])

返回近似抽樣數量的不同的元素。

countByKey()

計數為每個關鍵元素的個數,並將結果返回給主作為一個字典。

countByValue()

返回每個獨特的計算值在這個抽樣的字典(價值,計數)對。

截然不同的([numPartitions])

返回一個新的包含不同的元素在這個抽樣的抽樣。

過濾器(f)

返回一個新的抽樣僅包含滿足謂詞的元素。

第一個()

在這個抽樣返回第一個元素。

flatMap(f [, preservesPartitioning])

返回一個新的抽樣,首先將一個函數應用於所有元素的抽樣,然後壓扁的結果。

flatMapValues(f)

通過每個值的鍵-值對抽樣通過flatMap功能在不改變的關鍵;這也保留原抽樣的分區。

褶皺(zeroValue op)

聚合每個分區的元素,然後所有的分區結果,使用給定的關聯函數和一個中立的“零價值。”

foldByKey(zeroValue func (numPartitions,…))

合並每個鍵使用一個關聯函數的值函數和一個中立的“zeroValue”,可以添加到任意數量的時候,結果並不能改變結果(例如,0,或者1乘法。)。

foreach(f)

一個函數適用於這個抽樣的所有元素。

foreachPartition(f)

一個函數適用於每個分區的抽樣。

fullOuterJoin(其他[numPartitions])

執行一個右外連接自我其他

getCheckpointFile()

得到文件的名稱,這個抽樣是檢查點

getNumPartitions()

返回在抽樣數量的分區

getResourceProfile()

得到了pyspark.resource.ResourceProfile這個抽樣或沒有指定如果不是指定。

getStorageLevel()

抽樣的當前存儲的水平。

()

返回一個抽樣由合並每個分區內的所有元素列表。

groupBy(f [、numPartitions partitionFunc])

返回一個抽樣分組項。

groupByKey([numPartitions partitionFunc])

組中的每個鍵值抽樣為一個序列。

groupWith(其他*別人)

別名cogroup但支持多種抽樣。

柱狀圖(桶)

使用提供的桶計算直方圖。

id()

一個惟一的ID抽樣(在其SparkContext)。

十字路口(其他)

返回這個抽樣的十字路口和另一個。

isCheckpointed()

返回此抽樣是否檢查點和物化,可靠地或在本地。

isEmpty()

返回true當且僅當抽樣不包含任何元素。

isLocallyCheckpointed()

返回此抽樣是否標記為當地的檢查點。

加入(其他[numPartitions])

返回一個包含所有成對的抽樣元素匹配的鑰匙自我其他

keyBy(f)

創建元組元素在這個抽樣的應用f

()

返回一個抽樣與每個元組的關鍵。

leftOuterJoin(其他[numPartitions])

執行左外連接自我其他

localCheckpoint()

馬克這個抽樣為當地檢查點使用火花現有的緩存層。

查找(關鍵)

返回的列表值抽樣的關鍵關鍵

地圖(f [, preservesPartitioning])

通過應用一個函數返回一個新的抽樣,抽樣的每個元素。

mapPartitions(f [, preservesPartitioning])

通過應用一個函數返回一個新的抽樣,抽樣的每個分區。

mapPartitionsWithIndex(f […])

返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。

mapPartitionsWithSplit(f […])

返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。

mapValues(f)

通過每個值的鍵-值對抽樣通過映射函數不改變的關鍵;這也保留原抽樣的分區。

馬克斯([主要])

找到這個抽樣的最大項目。

的意思是()

計算均值的抽樣的元素。

meanApprox(超時,信心)

大致操作返回的意思是在超時或滿足的信心。

最小值([主要])

找到最小項抽樣。

的名字()

返回這個抽樣的名字。

partitionBy(numPartitions [partitionFunc])

返回一個抽樣分區使用指定的分區的副本。

堅持([storageLevel])

設置這個抽樣後的存儲水平持續其值在業務第一次計算。

(命令[,env, checkCode])

返回一個抽樣由管道元素一個分叉的外部過程。

randomSplit(重量、種子)

隨機分裂這個抽樣所提供的重量。

減少(f)

減少抽樣的元素使用指定的交換和關聯二元運算符。

reduceByKey(函數[,numPartitions, partitionFunc])

合並每個鍵使用一個關聯的值和交換減少功能。

reduceByKeyLocally(函數)

合並每個鍵使用一個關聯的值和交換減少功能,但立即返回結果主字典。

重新分區(numPartitions)

返回一個新的抽樣numPartitions分區。

repartitionAndSortWithinPartitions([…])

重新分配抽樣根據給定的分割者,在每個分區結果,記錄的鍵。

rightOuterJoin(其他[numPartitions])

執行一個右外連接自我其他

樣本(withReplacement分數(、種子))

返回這個抽樣的樣本子集。

sampleByKey(withReplacement分數(、種子))

返回一個子集的抽樣樣本的關鍵(通過分層抽樣)。

sampleStdev()

計算樣本標準差抽樣的元素(糾正偏差的估計標準差除以N - 1而不是N)。

sampleVariance()

計算這個抽樣的樣本方差的元素(糾正偏差的估計方差除以N - 1而不是N)。

saveAsHadoopDataset(參看[keyConverter,…)

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用舊的Hadoop OutputFormat API (mapred包)。

saveAsHadoopFile(路徑,outputFormatClass […])

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用舊的Hadoop OutputFormat API (mapred包)。

saveAsNewAPIHadoopDataset(參看[…])

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用新的Hadoop OutputFormat API (mapreduce包)。

saveAsNewAPIHadoopFile(outputFormatClass路徑)

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用新的Hadoop OutputFormat API (mapreduce包)。

saveAsPickleFile(路徑[batchSize])

保存這個抽樣的SequenceFile序列化的對象。

saveAsSequenceFile(路徑[compressionCodecClass])

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用“org.apache.hadoop.io。可寫“類型,我們將從抽樣的鍵和值類型。

saveAsTextFile(路徑[compressionCodecClass])

保存這個抽樣作為一個文本文件,使用元素的字符串表示。

setName(名字)

這個抽樣分配一個名稱。

sortBy(keyfunc[,提升,numPartitions])

鑒於keyfunc排序這個抽樣

sortByKey([按升序、numPartitions keyfunc])

假定分類抽樣,由(鍵值)對。

統計數據()

返回一個StatCounter對象捕捉均值、方差和計數抽樣的元素在一個操作。

方差()

計算標準偏差抽樣的元素。

減去(其他[numPartitions])

返回每個值自我這不是包含在其他

subtractByKey(其他[numPartitions])

返回每個(關鍵字,值)對自我沒有一對匹配的關鍵其他

總和()

加起來的元素在這個抽樣。

sumApprox(超時,信心)

近似操作返回總和在超時或滿足的信心。

(num)

第一次抽樣的num元素。

takeOrdered(num [,])

得到了N個元素從一個抽樣點按升序或指定的可選的關鍵功能。

takeSample(withReplacement num[,種子])

返回一個固定大小的樣本子集抽樣。

toDF([模式,sampleRatio])

toDebugString()

這個抽樣及其遞歸依賴關係的描述進行調試。

toLocalIterator([prefetchPartitions])

返回一個迭代器,包含所有的元素在這個抽樣。

(num [,])

從一個抽樣得到前N個元素。

treeAggregate(seqOp zeroValue combOp[、深度])

集合的元素的抽樣一個多級樹模式。

treeReduce(f[、深度])

減少抽樣的元素在一個多層次的樹模式。

聯盟(其他)

返回這個抽樣的聯盟和另一個。

unpersist((阻塞))

馬克和非持久性抽樣,並刪除所有從內存和磁盤塊。

()

返回一個抽樣與每個元組的值。

方差()

計算的方差這抽樣的元素。

withResources(概要)

指定一個pyspark.resource.ResourceProfile這個抽樣計算時使用。

郵政編碼(其他)

拉鏈這個抽樣與另一個,返回第一個元素的鍵值對每個抽樣的第二個元素在每個抽樣,等等。

zipWithIndex()

拉鏈這抽樣元素指標。

zipWithUniqueId()

拉鏈這個抽樣生成惟一的id。

屬性

上下文

SparkContext創建這個抽樣。