pyspark.RDD.repartition

抽樣。 重新分區 ( numPartitions:int )→pyspark.rdd.RDD(T]

返回一個新的抽樣numPartitions分區。

可以增加或減少抽樣水平的並行性。在內部,它使用一個洗牌重新分配數據。如果你減少分區的數量在這個抽樣,考慮使用合並,它可以避免執行洗牌。

例子

> > >抽樣=sc並行化([1,2,3,4,5,6,7),4)> > >排序(抽樣()收集())[[1],[2、3],[4 5],[6、7]]> > >len(抽樣重新分區(2)()收集())2> > >len(抽樣重新分區(10)()收集())10