pyspark.RDD.zipWithUniqueId

抽樣。 zipWithUniqueId ( )→pyspark.rdd.RDD(元組(T,int] ]

拉鏈這個抽樣生成惟一的id。

項目將ids k, k分區n + k, 2 * n + k,…,其中n是分區的數量。所以可能存在差距,但這種方法不會引發火花的工作,這是不同的zipWithIndex ()

例子

> > >sc並行化([“一個”,“b”,“c”,“d”,“e”),3)zipWithUniqueId()收集()[(' a ', 0)、(' b ', 1), (“c”, 4), (' d ', 2), (‘e’, 5)]