pyspark.pandas.DataFrame.sample¶
-
DataFrame。
樣本
( n:可選(int]=沒有一個,裂縫分析:可選(浮動]=沒有一個,取代:bool=假,random_state:可選(int]=沒有一個,ignore_index:bool=假 )→pyspark.pandas.frame.DataFrame¶ -
返回一個隨機樣本的物品從一個軸的對象。
請打電話給這個函數使用命名參數指定
裂縫分析
論點。您可以使用random_state再現性。然而,請注意,不同於大熊貓,指定種子pandas-on-Spark /火花並不能保證采樣行將是固定的。結果集不僅取決於種子,還如何分布在機器和數據在某種程度上網絡隨機洗牌操作時。即使在最簡單的情況下,結果集將取決於係統的CPU核心數。
- 參數
-
- n int,可選
-
返回項目的數量。這是目前不支持。而是使用壓裂。
- 裂縫分析 浮動,可選
-
軸的物品返回。
- 取代 bool,默認的錯誤
-
樣品有或沒有更換。
- random_state int,可選
-
種子的隨機數生成器(如果int)。
- ignore_index bool,默認的錯誤
-
如果情況屬實,由此產生的索引將被標記為0,1,…,n - 1。
- 返回
-
- 係列或DataFrame
-
一個新對象包含采樣項目相同類型的調用者。
例子
> > >df=ps。DataFrame({“num_legs”:(2,4,8,0),…“num_wings”:(2,0,0,0),…“num_specimen_seen”:(10,2,1,8)},…指數=(“獵鷹”,“狗”,“蜘蛛”,“魚”),…列=(“num_legs”,“num_wings”,“num_specimen_seen”])> > >dfnum_legs num_wings num_specimen_seen獵鷹2 2 10狗4 0 2蜘蛛8 0 1魚0 0 8
一個隨機樣本的25%
DataFrame
。注意,我們使用random_state確保再現性的例子。> > >df。樣本(裂縫分析=0.25,random_state=1)num_legs num_wings num_specimen_seen獵鷹2 2 10魚0 0 8
一個隨機樣本的50%
DataFrame
,而忽略了索引。> > >df。樣本(裂縫分析=0.5,random_state=1,ignore_index=真正的)num_legs num_wings num_specimen_seen0 4 0 21 8 0 12 0 0 8
提取25%的隨機元素
係列
df (“num_legs”)
,替換,所以同樣的物品可以不止一次出現。> > >df(“num_legs”]。樣本(裂縫分析=0.4,取代=真正的,random_state=1)獵鷹2蜘蛛8蜘蛛8名稱:num_legs dtype: int64
指定項目的具體數量目前還不支持。
> > >df。樣本(n=5)回溯(最近的電話):…NotImplementedError:函數樣本目前不支持指定…