pyspark.RDD.zipWithUniqueId¶

抽樣。 zipWithUniqueId ( )→pyspark.rdd.RDD(元組(T,int] ] ¶

拉鏈這個抽樣生成惟一的id。

項目將ids k, k分區n + k, 2 * n + k,…,其中n是分區的數量。所以可能存在差距,但這種方法不會引發火花的工作,這是不同的zipWithIndex ()。

例子

           > > >sc。並行化([“一個”,“b”,“c”,“d”,“e”),3)。zipWithUniqueId()。收集()[(' a ', 0)、(' b ', 1), (“c”, 4), (' d ', 2), (‘e’, 5)]
          

以前的

pyspark.RDD.zipWithIndex

下一個

pyspark.Broadcast.destroy