pyspark.RDD.take¶
-
抽樣。
取
( 全國礦工工會:int )→列表(T] ¶ -
第一次抽樣的num元素。
先掃描一個分區,並使用該分區的結果估計所需的額外的分區數量滿足極限。
翻譯從Scala實現在抽樣# ()。
筆記
這種方法應該隻用於如果生成的數組將小,因為所有數據加載到司機的記憶。
例子
> > >sc。並行化([2,3,4,5,6])。緩存()。取(2)(2、3)> > >sc。並行化([2,3,4,5,6])。取(10)(2、3、4、5、6)> > >sc。並行化(範圍(One hundred.),One hundred.)。過濾器(λx:x>90年)。取(3)(91、92、93)