pyspark.pandas.DataFrame.sample

DataFrame。 樣本 ( n:可選(int]=沒有一個,裂縫分析:可選(浮動]=沒有一個,取代:bool=,random_state:可選(int]=沒有一個,ignore_index:bool= )→pyspark.pandas.frame.DataFrame

返回一個隨機樣本的物品從一個軸的對象。

請打電話給這個函數使用命名參數指定裂縫分析論點。

您可以使用random_state再現性。然而,請注意,不同於大熊貓,指定種子pandas-on-Spark /火花並不能保證采樣行將是固定的。結果集不僅取決於種子,還如何分布在機器和數據在某種程度上網絡隨機洗牌操作時。即使在最簡單的情況下,結果集將取決於係統的CPU核心數。

參數
n int,可選

返回項目的數量。這是目前不支持。而是使用壓裂。

裂縫分析 浮動,可選

軸的物品返回。

取代 bool,默認的錯誤

樣品有或沒有更換。

random_state int,可選

種子的隨機數生成器(如果int)。

ignore_index bool,默認的錯誤

如果情況屬實,由此產生的索引將被標記為0,1,…,n - 1。

返回
係列或DataFrame

一個新對象包含采樣項目相同類型的調用者。

例子

> > >df=psDataFrame({“num_legs”:(2,4,8,0),“num_wings”:(2,0,0,0),“num_specimen_seen”:(10,2,1,8)},指數=(“獵鷹”,“狗”,“蜘蛛”,“魚”),=(“num_legs”,“num_wings”,“num_specimen_seen”])> > >dfnum_legs num_wings num_specimen_seen獵鷹2 2 10狗4 0 2蜘蛛8 0 1魚0 0 8

一個隨機樣本的25%DataFrame。注意,我們使用random_state確保再現性的例子。

> > >df樣本(裂縫分析=0.25,random_state=1)num_legs num_wings num_specimen_seen獵鷹2 2 10魚0 0 8

一個隨機樣本的50%DataFrame,而忽略了索引。

> > >df樣本(裂縫分析=0.5,random_state=1,ignore_index=真正的)num_legs num_wings num_specimen_seen0 4 0 21 8 0 12 0 0 8

提取25%的隨機元素係列df (“num_legs”),替換,所以同樣的物品可以不止一次出現。

> > >df(“num_legs”]樣本(裂縫分析=0.4,取代=真正的,random_state=1)獵鷹2蜘蛛8蜘蛛8名稱:num_legs dtype: int64

指定項目的具體數量目前還不支持。

> > >df樣本(n=5)回溯(最近的電話):NotImplementedError:函數樣本目前不支持指定…