pyspark.RDD.groupBy¶

抽樣。 groupBy ( f:可調用的[[T], K], numPartitions:可選(int) = None, partitionFunc:可調用的[[K], int] = <函數portable_hash > )→pyspark.rdd.RDD(元組(K,Iterable(T] ] ] ¶

返回一個抽樣分組項。

例子

           > > >抽樣=sc。並行化([1,1,2,3,5,8])> > >結果=抽樣。groupBy(λx:x%2)。收集()> > >排序(((x,排序(y))為(x,y)在結果])((0,(2,8)),(1,(1,1,3,5)))
          

以前的

pyspark.RDD.glom

下一個

pyspark.RDD.groupByKey