pyspark.RDD.take

抽樣。 ( 全國礦工工會:int )→列表(T]

第一次抽樣的num元素。

先掃描一個分區,並使用該分區的結果估計所需的額外的分區數量滿足極限。

翻譯從Scala實現在抽樣# ()。

筆記

這種方法應該隻用於如果生成的數組將小,因為所有數據加載到司機的記憶。

例子

> > >sc並行化([2,3,4,5,6])緩存()(2)(2、3)> > >sc並行化([2,3,4,5,6])(10)(2、3、4、5、6)> > >sc並行化(範圍(One hundred.),One hundred.)過濾器(λx:x>90年)(3)(91、92、93)