pyspark.RDD.mapPartitions¶

抽樣。 mapPartitions ( f:可調用的((Iterable(T]],Iterable(U]],preservesPartitioning:bool=假 )→pyspark.rdd.RDD(U] ¶

通過應用一個函數返回一個新的抽樣,抽樣的每個分區。

例子

           > > >抽樣=sc。並行化([1,2,3,4),2)> > >deff(迭代器):收益率總和(迭代器)> > >抽樣。mapPartitions(f)。收集()(3、7)
          

以前的

pyspark.RDD.map

下一個

pyspark.RDD.mapPartitionsWithIndex