pyspark.RDD.mapPartitionsWithSplit¶

抽樣。 mapPartitionsWithSplit ( f:可調用的((int,Iterable(T]],Iterable(U]],preservesPartitioning:bool=假 )→pyspark.rdd.RDD(U] ¶

返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。

使用RDD.mapPartitionsWithIndex ()代替。

例子

           > > >抽樣=sc。並行化([1,2,3,4),4)> > >deff(splitIndex,迭代器):收益率splitIndex> > >抽樣。mapPartitionsWithSplit(f)。總和()6
          

以前的

pyspark.RDD.mapPartitionsWithIndex

下一個

pyspark.RDD.mapValues