pyspark.RDD.mapPartitionsWithSplit

抽樣。 mapPartitionsWithSplit ( f:可調用的((int,Iterable(T]],Iterable(U]],preservesPartitioning:bool= )→pyspark.rdd.RDD(U]

返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。

例子

> > >抽樣=sc並行化([1,2,3,4),4)> > >deff(splitIndex,迭代器):收益率splitIndex> > >抽樣mapPartitionsWithSplit(f)總和()6