pyspark.RDD.repartitionAndSortWithinPartitions

抽樣。 repartitionAndSortWithinPartitions ( numPartitions:可選(int) = None, partitionFunc:可調用的[[任何],int] = <函數portable_hash >,提升:bool = True, keyfunc:可調用的[[所有],任何]= <函數抽樣。<λ> > )→pyspark.rdd.RDD(元組(任何,任何] ]

重新分配抽樣根據給定的分割者,在每個分區結果,記錄的鍵。

例子

> > >抽樣=sc並行化(((0,5),(3,8),(2,6),(0,8),(3,8),(1,3)))> > >rdd2=抽樣repartitionAndSortWithinPartitions(2,λx:x%2,真正的)> > >rdd2()收集()[[(0 5)(0,8),(2,6)],[(1,3),(8),(8)]]