pyspark.RDD.repartitionAndSortWithinPartitions¶
-
抽樣。
repartitionAndSortWithinPartitions
( numPartitions:可選(int) = None, partitionFunc:可調用的[[任何],int] = <函數portable_hash >,提升:bool = True, keyfunc:可調用的[[所有],任何]= <函數抽樣。<λ> > )→pyspark.rdd.RDD(元組(任何,任何] ] ¶ -
重新分配抽樣根據給定的分割者,在每個分區結果,記錄的鍵。
例子
> > >抽樣=sc。並行化(((0,5),(3,8),(2,6),(0,8),(3,8),(1,3)))> > >rdd2=抽樣。repartitionAndSortWithinPartitions(2,λx:x%2,真正的)> > >rdd2。偷()。收集()[[(0 5)(0,8),(2,6)],[(1,3),(8),(8)]]