pyspark.sql.DataFrame.sample

DataFrame。 樣本 ( withReplacement:聯盟(浮動,bool,沒有)=沒有一個,分數:聯盟(整數、浮點數、沒有)=沒有一個,種子:可選(int]=沒有一個 )→pyspark.sql.dataframe.DataFrame

返回一個樣本子集DataFrame

參數
withReplacement bool,可選

樣品與替換(默認)。

分數 浮動,可選

分數的行生成、範圍[0.0,1.0]。

種子 int,可選

隨機種子種子取樣(默認)。

筆記

這是不能保證提供完全指定的分數的總計數DataFrame

分數是必需的,withReplacement種子是可選的。

例子

> > >df=火花範圍(10)> > >df樣本(0.5,3)()7> > >df樣本(分數=0.5,種子=3)()7> > >df樣本(withReplacement=真正的,分數=0.5,種子=3)()1> > >df樣本(1.0)()10> > >df樣本(分數=1.0)()10> > >df樣本(,分數=1.0)()10