pyspark.pandas.DataFrame.sample¶

DataFrame。 樣本 ( n:可選(int]=沒有一個,裂縫分析:可選(浮動]=沒有一個,取代:bool=假,random_state:可選(int]=沒有一個,ignore_index:bool=假 )→pyspark.pandas.frame.DataFrame¶

返回一個隨機樣本的物品從一個軸的對象。

請打電話給這個函數使用命名參數指定裂縫分析論點。

您可以使用random_state再現性。然而,請注意,不同於大熊貓,指定種子pandas-on-Spark /火花並不能保證采樣行將是固定的。結果集不僅取決於種子,還如何分布在機器和數據在某種程度上網絡隨機洗牌操作時。即使在最簡單的情況下,結果集將取決於係統的CPU核心數。

參數

n int,可選: 返回項目的數量。這是目前不支持。而是使用壓裂。
裂縫分析 浮動,可選: 軸的物品返回。
取代 bool,默認的錯誤: 樣品有或沒有更換。
random_state int,可選: 種子的隨機數生成器(如果int)。
ignore_index bool,默認的錯誤: 如果情況屬實,由此產生的索引將被標記為0,1,…,n - 1。

返回

係列或DataFrame: 一個新對象包含采樣項目相同類型的調用者。

例子

           > > >df=ps。DataFrame({“num_legs”:(2,4,8,0),…“num_wings”:(2,0,0,0),…“num_specimen_seen”:(10,2,1,8)},…指數=(“獵鷹”,“狗”,“蜘蛛”,“魚”),…列=(“num_legs”,“num_wings”,“num_specimen_seen”])> > >dfnum_legs num_wings num_specimen_seen獵鷹2 2 10狗4 0 2蜘蛛8 0 1魚0 0 8
          

一個隨機樣本的25%DataFrame。注意,我們使用random_state確保再現性的例子。

           > > >df。樣本(裂縫分析=0.25,random_state=1)num_legs num_wings num_specimen_seen獵鷹2 2 10魚0 0 8
          

一個隨機樣本的50%DataFrame,而忽略了索引。

           > > >df。樣本(裂縫分析=0.5,random_state=1,ignore_index=真正的)num_legs num_wings num_specimen_seen0 4 0 21 8 0 12 0 0 8
          

提取25%的隨機元素係列df (“num_legs”),替換,所以同樣的物品可以不止一次出現。

           > > >df(“num_legs”]。樣本(裂縫分析=0.4,取代=真正的,random_state=1)獵鷹2蜘蛛8蜘蛛8名稱:num_legs dtype: int64
          

指定項目的具體數量目前還不支持。

           > > >df。樣本(n=5)回溯(最近的電話):…NotImplementedError:函數樣本目前不支持指定…
          

以前的

pyspark.pandas.DataFrame.isin

下一個

pyspark.pandas.DataFrame.truncate