pyspark.RDD.zipWithIndex

抽樣。 zipWithIndex ( )→pyspark.rdd.RDD(元組(T,int] ]

拉鏈這抽樣元素指標。

首先基於分區索引排序,然後每個分區內商品的訂購。第一項在第一個分區索引0,和在過去的最後一項分區收到最大的指數。

這種方法需要觸發火花工作當這個抽樣包含不止一個分區。

例子

> > >sc並行化([“一個”,“b”,“c”,“d”),3)zipWithIndex()收集()[(' a ', 0)、(' b ', 1), (' c ', 2), (' d ', 3)]