pyspark.RDD¶
-
類
pyspark。
抽樣
( jrdd:JavaObject,ctx:SparkContext,jrdd_deserializer:pyspark.serializers.Serializer=AutoBatchedSerializer (CloudPickleSerializer ()) ) ¶ -
一個彈性分布式數據集(抽樣),火花的基本抽象。代表一個不可變的,分區集合的元素可以在並行操作。
方法
總
(seqOp zeroValue combOp)集合的元素每個分區,然後所有的分區結果,使用給定的組合功能和一個中立的“零價值。”
aggregateByKey
(seqFunc zeroValue combFunc)聚合每個鍵的值,使用組合函數和一個中立的“零值”。
障礙
()標誌著當前階段作為一個障礙階段,火花必須共同推出所有任務。
緩存
()堅持這個抽樣與默認的存儲水平(MEMORY_ONLY)。
笛卡兒
(其他)返回這個抽樣的笛卡兒積和另一個,也就是說,對所有元素的抽樣
(一個b)
在哪裏一個
是在自我和b
是在其他。檢查點
()馬克這對檢查點抽樣。
cleanShuffleDependencies
((阻塞))刪除一個抽樣的震蕩和non-persisted祖先。
合並
(numPartitions[,洗牌])返回一個新的抽樣降低numPartitions分區。
cogroup
(其他[numPartitions])為每個關鍵k自我或其他,返回一個抽樣結果,其中包含的元組的值列表的關鍵自我以及其他。
收集
()返回一個列表,其中包含所有的元素在這個抽樣。
返回鍵值在這個抽樣到主字典。
collectWithJobGroup
(groupId,描述[…])收集抽樣時,使用這種方法來指定工作小組。
combineByKey
(mergeValue createCombiner…)泛型函數結合的元素為每個聚合函數的主要使用一個自定義組。
數
()返回元素的數量在這個抽樣。
countApprox
(超時,信心)近似的版本數(),它返回一個潛在的不完整的結果在一個超時,即使不是所有任務都完成了。
countApproxDistinct
([relativeSD])返回近似抽樣數量的不同的元素。
計數為每個關鍵元素的個數,並將結果返回給主作為一個字典。
返回每個獨特的計算值在這個抽樣的字典(價值,計數)對。
截然不同的
([numPartitions])返回一個新的包含不同的元素在這個抽樣的抽樣。
過濾器
(f)返回一個新的抽樣僅包含滿足謂詞的元素。
第一個
()在這個抽樣返回第一個元素。
flatMap
(f [, preservesPartitioning])返回一個新的抽樣,首先將一個函數應用於所有元素的抽樣,然後壓扁的結果。
通過每個值的鍵-值對抽樣通過flatMap功能在不改變的關鍵;這也保留原抽樣的分區。
褶皺
(zeroValue op)聚合每個分區的元素,然後所有的分區結果,使用給定的關聯函數和一個中立的“零價值。”
foldByKey
(zeroValue func (numPartitions,…))合並每個鍵使用一個關聯函數的值函數和一個中立的“zeroValue”,可以添加到任意數量的時候,結果並不能改變結果(例如,0,或者1乘法。)。
foreach
(f)一個函數適用於這個抽樣的所有元素。
一個函數適用於每個分區的抽樣。
fullOuterJoin
(其他[numPartitions])執行一個右外連接自我和其他。
得到文件的名稱,這個抽樣是檢查點
返回在抽樣數量的分區
得到了
pyspark.resource.ResourceProfile
這個抽樣或沒有指定如果不是指定。抽樣的當前存儲的水平。
偷
()返回一個抽樣由合並每個分區內的所有元素列表。
groupBy
(f [、numPartitions partitionFunc])返回一個抽樣分組項。
groupByKey
([numPartitions partitionFunc])組中的每個鍵值抽樣為一個序列。
groupWith
(其他*別人)別名cogroup但支持多種抽樣。
柱狀圖
(桶)使用提供的桶計算直方圖。
id
()一個惟一的ID抽樣(在其SparkContext)。
十字路口
(其他)返回這個抽樣的十字路口和另一個。
返回此抽樣是否檢查點和物化,可靠地或在本地。
isEmpty
()返回true當且僅當抽樣不包含任何元素。
返回此抽樣是否標記為當地的檢查點。
加入
(其他[numPartitions])返回一個包含所有成對的抽樣元素匹配的鑰匙自我和其他。
keyBy
(f)創建元組元素在這個抽樣的應用f。
鍵
()返回一個抽樣與每個元組的關鍵。
leftOuterJoin
(其他[numPartitions])執行左外連接自我和其他。
馬克這個抽樣為當地檢查點使用火花現有的緩存層。
查找
(關鍵)返回的列表值抽樣的關鍵關鍵。
地圖
(f [, preservesPartitioning])通過應用一個函數返回一個新的抽樣,抽樣的每個元素。
mapPartitions
(f [, preservesPartitioning])通過應用一個函數返回一個新的抽樣,抽樣的每個分區。
mapPartitionsWithIndex
(f […])返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。
mapPartitionsWithSplit
(f […])返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。
mapValues
(f)通過每個值的鍵-值對抽樣通過映射函數不改變的關鍵;這也保留原抽樣的分區。
馬克斯
([主要])找到這個抽樣的最大項目。
的意思是
()計算均值的抽樣的元素。
meanApprox
(超時,信心)大致操作返回的意思是在超時或滿足的信心。
最小值
([主要])找到最小項抽樣。
的名字
()返回這個抽樣的名字。
partitionBy
(numPartitions [partitionFunc])返回一個抽樣分區使用指定的分區的副本。
堅持
([storageLevel])設置這個抽樣後的存儲水平持續其值在業務第一次計算。
管
(命令[,env, checkCode])返回一個抽樣由管道元素一個分叉的外部過程。
randomSplit
(重量、種子)隨機分裂這個抽樣所提供的重量。
減少
(f)減少抽樣的元素使用指定的交換和關聯二元運算符。
reduceByKey
(函數[,numPartitions, partitionFunc])合並每個鍵使用一個關聯的值和交換減少功能。
合並每個鍵使用一個關聯的值和交換減少功能,但立即返回結果主字典。
重新分區
(numPartitions)返回一個新的抽樣numPartitions分區。
重新分配抽樣根據給定的分割者,在每個分區結果,記錄的鍵。
rightOuterJoin
(其他[numPartitions])執行一個右外連接自我和其他。
樣本
(withReplacement分數(、種子))返回這個抽樣的樣本子集。
sampleByKey
(withReplacement分數(、種子))返回一個子集的抽樣樣本的關鍵(通過分層抽樣)。
計算樣本標準差抽樣的元素(糾正偏差的估計標準差除以N - 1而不是N)。
計算這個抽樣的樣本方差的元素(糾正偏差的估計方差除以N - 1而不是N)。
saveAsHadoopDataset
(參看[keyConverter,…)輸出一個Python抽樣的鍵-值對的形式
抽樣[(K,V))
)任何Hadoop文件係統,使用舊的Hadoop OutputFormat API (mapred包)。saveAsHadoopFile
(路徑,outputFormatClass […])輸出一個Python抽樣的鍵-值對的形式
抽樣[(K,V))
)任何Hadoop文件係統,使用舊的Hadoop OutputFormat API (mapred包)。saveAsNewAPIHadoopDataset
(參看[…])輸出一個Python抽樣的鍵-值對的形式
抽樣[(K,V))
)任何Hadoop文件係統,使用新的Hadoop OutputFormat API (mapreduce包)。saveAsNewAPIHadoopFile
(outputFormatClass路徑)輸出一個Python抽樣的鍵-值對的形式
抽樣[(K,V))
)任何Hadoop文件係統,使用新的Hadoop OutputFormat API (mapreduce包)。saveAsPickleFile
(路徑[batchSize])保存這個抽樣的SequenceFile序列化的對象。
saveAsSequenceFile
(路徑[compressionCodecClass])輸出一個Python抽樣的鍵-值對的形式
抽樣[(K,V))
)任何Hadoop文件係統,使用“org.apache.hadoop.io。可寫“類型,我們將從抽樣的鍵和值類型。saveAsTextFile
(路徑[compressionCodecClass])保存這個抽樣作為一個文本文件,使用元素的字符串表示。
setName
(名字)這個抽樣分配一個名稱。
sortBy
(keyfunc[,提升,numPartitions])鑒於keyfunc排序這個抽樣
sortByKey
([按升序、numPartitions keyfunc])假定分類抽樣,由(鍵值)對。
統計數據
()返回一個
StatCounter
對象捕捉均值、方差和計數抽樣的元素在一個操作。方差
()計算標準偏差抽樣的元素。
減去
(其他[numPartitions])返回每個值自我這不是包含在其他。
subtractByKey
(其他[numPartitions])返回每個(關鍵字,值)對自我沒有一對匹配的關鍵其他。
總和
()加起來的元素在這個抽樣。
sumApprox
(超時,信心)近似操作返回總和在超時或滿足的信心。
取
(num)第一次抽樣的num元素。
takeOrdered
(num [,])得到了N個元素從一個抽樣點按升序或指定的可選的關鍵功能。
takeSample
(withReplacement num[,種子])返回一個固定大小的樣本子集抽樣。
toDF
([模式,sampleRatio])這個抽樣及其遞歸依賴關係的描述進行調試。
toLocalIterator
([prefetchPartitions])返回一個迭代器,包含所有的元素在這個抽樣。
前
(num [,])從一個抽樣得到前N個元素。
treeAggregate
(seqOp zeroValue combOp[、深度])集合的元素的抽樣一個多級樹模式。
treeReduce
(f[、深度])減少抽樣的元素在一個多層次的樹模式。
聯盟
(其他)返回這個抽樣的聯盟和另一個。
unpersist
((阻塞))馬克和非持久性抽樣,並刪除所有從內存和磁盤塊。
值
()返回一個抽樣與每個元組的值。
方差
()計算的方差這抽樣的元素。
withResources
(概要)指定一個
pyspark.resource.ResourceProfile
這個抽樣計算時使用。郵政編碼
(其他)拉鏈這個抽樣與另一個,返回第一個元素的鍵值對每個抽樣的第二個元素在每個抽樣,等等。
拉鏈這抽樣元素指標。
拉鏈這個抽樣生成惟一的id。
屬性
的
SparkContext
創建這個抽樣。