pyspark.RDD.takeSample

抽樣。 takeSample ( withReplacement:bool,全國礦工工會:int,種子:可選(int]=沒有一個 )→列表(T]

返回一個固定大小的樣本子集抽樣。

筆記

這種方法應該隻用於如果生成的數組將小,因為所有數據加載到司機的記憶。

例子

> > >抽樣=sc並行化(範圍(0,10))> > >len(抽樣takeSample(真正的,20.,1))20.> > >len(抽樣takeSample(,5,2))5> > >len(抽樣takeSample(,15,3))10