pyspark.RDD.reduceByKey¶

抽樣。 reduceByKey ( func:調用[V, V, V], numPartitions:可選(int) = None, partitionFunc:可調用的[[K], int] = <函數portable_hash > )→pyspark.rdd.RDD(元組(K,V] ] ¶

合並每個鍵使用一個關聯的值和交換減少功能。

這也將執行合並每個映射器上本地發送結果減速機之前,類似於一個“組合器”MapReduce。

輸出將分區numPartitions分區,或者默認的並行性級別numPartitions沒有指定。默認hash-partition瓜分者。

例子

           > > >從操作符進口添加> > >抽樣=sc。並行化(((“一個”,1),(“b”,1),(“一個”,1)))> > >排序(抽樣。reduceByKey(添加)。收集())[(' a ', 2), (' b ', 1))
          

以前的

pyspark.RDD.reduce

下一個

pyspark.RDD.reduceByKeyLocally