pyspark.RDD.zipWithUniqueId¶
-
抽樣。
zipWithUniqueId
( )→pyspark.rdd.RDD(元組(T,int] ] ¶ -
拉鏈這個抽樣生成惟一的id。
項目將ids k, k分區n + k, 2 * n + k,…,其中n是分區的數量。所以可能存在差距,但這種方法不會引發火花的工作,這是不同的
zipWithIndex ()
。例子
> > >sc。並行化([“一個”,“b”,“c”,“d”,“e”),3)。zipWithUniqueId()。收集()[(' a ', 0)、(' b ', 1), (“c”, 4), (' d ', 2), (‘e’, 5)]