pyspark.RDD.sample

抽樣。 樣本 ( withReplacement:bool,分數:浮動,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD(T]

返回這個抽樣的樣本子集。

參數
withReplacement bool

元素可以多次采樣(取代當采樣)

分數 浮動

預期的樣本大小的一小部分不重複抽樣的規模:概率選擇每個元素;分數必須[0,1]替換:預期的次數選擇每個元素;分數必須> = 0

種子 int,可選

隨機數生成器的種子

筆記

這是不能保證提供完全指定的分數的總計數DataFrame

例子

> > >抽樣=sc並行化(範圍(One hundred.),4)> > >6< =抽樣樣本(,0.1,81年)()< =14真正的