pyspark.RDD.sample¶
-
抽樣。
樣本
( withReplacement:bool,分數:浮動,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD(T] ¶ -
返回這個抽樣的樣本子集。
- 參數
-
- withReplacement bool
-
元素可以多次采樣(取代當采樣)
- 分數 浮動
-
預期的樣本大小的一小部分不重複抽樣的規模:概率選擇每個元素;分數必須[0,1]替換:預期的次數選擇每個元素;分數必須> = 0
- 種子 int,可選
-
隨機數生成器的種子
筆記
這是不能保證提供完全指定的分數的總計數
DataFrame
。例子
> > >抽樣=sc。並行化(範圍(One hundred.),4)> > >6< =抽樣。樣本(假,0.1,81年)。數()< =14真正的