pyspark.pandas.Series.describe

係列。 描述 ( 百分位數:可選(列表(浮動]]=沒有一個 )→pyspark.pandas.series.Series

產生描述性統計,總結集中趨勢,分散和形狀數據集的分布、排除值。

分析數字和對象係列,以及DataFrame列集的混合數據類型。輸出取決於是什麼。請參考下麵的備注更多細節。

參數
百分位數 的列表浮動範圍內(0.0,1.0),默認(0.25,0.5,0.75)

百分位數的列表計算。

返回
DataFrame

提供的Dataframe彙總統計信息。

另請參閱

DataFrame.count

計數non-NA /空觀測的數量。

DataFrame.max

最大的值對象。

DataFrame.min

最小值的對象。

DataFrame.mean

的值。

DataFrame.std

標準偏差的觀察。

筆記

對於數值型數據,結果的索引將包括,的意思是,性病,最小值,25%,50%,75%,馬克斯

對象數據(如字符串或時間戳),結果的索引將包括,獨特的,,頻率。的是最常見的價值。的頻率是最常見的頻率值。時間戳也包括第一個去年物品。

例子

描述一個數字係列

> > >年代=ps係列([1,2,3])> > >年代描述()數3.0平均2.0性病1.01.0分鍾25% 1.050% 2.075% 3.0馬克斯3.0dtype: float64

描述一個DataFrame。隻返回數值字段。

> > >df=psDataFrame({“numeric1”:(1,2,3),“numeric2”:(4.0,5.0,6.0),“對象”:(“一個”,“b”,“c”]},=(“numeric1”,“numeric2”,“對象”])> > >df描述()numeric1 numeric2數3.0 - 3.0意思是2.0 - 5.0性病1.0 - 1.0分鍾1.0 - 4.025% 1.0 4.050% 2.0 5.075% 3.0 6.0馬克斯3.0 - 6.0

多索引的列:

> > >df=((“num”,“一個”),(“num”,“b”),(“obj”,“c”)]> > >df描述()全國礦工工會一個b數3.0 - 3.0意思是2.0 - 5.0性病1.0 - 1.0分鍾1.0 - 4.025% 1.0 4.050% 2.0 5.075% 3.0 6.0馬克斯3.0 - 6.0
> > >df((“num”,“b”)]描述()數3.0平均5.0性病1.04.0分鍾25% 4.050% 5.075% 6.0馬克斯6.0名稱:(num, b), dtype: float64

描述一個DataFrame並選擇定製的百分位數。

> > >df=psDataFrame({“numeric1”:(1,2,3),“numeric2”:(4.0,5.0,6.0]},=(“numeric1”,“numeric2”])> > >df描述(百分位數=(0.85,0.15])numeric1 numeric2數3.0 - 3.0意思是2.0 - 5.0性病1.0 - 1.0分鍾1.0 - 4.015% 1.0 4.050% 2.0 5.085% 3.0 6.0馬克斯3.0 - 6.0

描述從一列DataFrame通過訪問一個屬性。

> > >dfnumeric1描述()數3.0平均2.0性病1.01.0分鍾25% 1.050% 2.075% 3.0馬克斯3.0名稱:numeric1 dtype: float64

描述從一列DataFrame通過訪問一個屬性並選擇定製的百分位數。

> > >dfnumeric1描述(百分位數=(0.85,0.15])數3.0平均2.0性病1.01.0分鍾15% 1.050% 2.085% 3.0馬克斯3.0名稱:numeric1 dtype: float64