pyspark.pandas.Series.describe¶
-
係列。
描述
( 百分位數:可選(列表(浮動]]=沒有一個 )→pyspark.pandas.series.Series¶ -
產生描述性統計,總結集中趨勢,分散和形狀數據集的分布、排除
南
值。分析數字和對象係列,以及
DataFrame
列集的混合數據類型。輸出取決於是什麼。請參考下麵的備注更多細節。- 參數
-
-
百分位數
的列表
浮動
範圍內(0.0,1.0),默認(0.25,0.5,0.75) -
百分位數的列表計算。
-
百分位數
的列表
- 返回
-
- DataFrame
-
提供的Dataframe彙總統計信息。
另請參閱
-
DataFrame.count
-
計數non-NA /空觀測的數量。
-
DataFrame.max
-
最大的值對象。
-
DataFrame.min
-
最小值的對象。
-
DataFrame.mean
-
的值。
-
DataFrame.std
-
標準偏差的觀察。
筆記
對於數值型數據,結果的索引將包括
數
,的意思是
,性病
,最小值
,25%
,50%
,75%
,馬克斯
。對象數據(如字符串或時間戳),結果的索引將包括
數
,獨特的
,前
,頻率
。的前
是最常見的價值。的頻率
是最常見的頻率值。時間戳也包括第一個
和去年
物品。例子
描述一個數字
係列
。> > >年代=ps。係列([1,2,3])> > >年代。描述()數3.0平均2.0性病1.01.0分鍾25% 1.050% 2.075% 3.0馬克斯3.0dtype: float64
描述一個
DataFrame
。隻返回數值字段。> > >df=ps。DataFrame({“numeric1”:(1,2,3),…“numeric2”:(4.0,5.0,6.0),…“對象”:(“一個”,“b”,“c”]…},…列=(“numeric1”,“numeric2”,“對象”])> > >df。描述()numeric1 numeric2數3.0 - 3.0意思是2.0 - 5.0性病1.0 - 1.0分鍾1.0 - 4.025% 1.0 4.050% 2.0 5.075% 3.0 6.0馬克斯3.0 - 6.0
多索引的列:
> > >df。列=((“num”,“一個”),(“num”,“b”),(“obj”,“c”)]> > >df。描述()全國礦工工會一個b數3.0 - 3.0意思是2.0 - 5.0性病1.0 - 1.0分鍾1.0 - 4.025% 1.0 4.050% 2.0 5.075% 3.0 6.0馬克斯3.0 - 6.0
> > >df((“num”,“b”)]。描述()數3.0平均5.0性病1.04.0分鍾25% 4.050% 5.075% 6.0馬克斯6.0名稱:(num, b), dtype: float64
描述一個
DataFrame
並選擇定製的百分位數。> > >df=ps。DataFrame({“numeric1”:(1,2,3),…“numeric2”:(4.0,5.0,6.0]…},…列=(“numeric1”,“numeric2”])> > >df。描述(百分位數=(0.85,0.15])numeric1 numeric2數3.0 - 3.0意思是2.0 - 5.0性病1.0 - 1.0分鍾1.0 - 4.015% 1.0 4.050% 2.0 5.085% 3.0 6.0馬克斯3.0 - 6.0
描述從一列
DataFrame
通過訪問一個屬性。> > >df。numeric1。描述()數3.0平均2.0性病1.01.0分鍾25% 1.050% 2.075% 3.0馬克斯3.0名稱:numeric1 dtype: float64
描述從一列
DataFrame
通過訪問一個屬性並選擇定製的百分位數。> > >df。numeric1。描述(百分位數=(0.85,0.15])數3.0平均2.0性病1.01.0分鍾15% 1.050% 2.085% 3.0馬克斯3.0名稱:numeric1 dtype: float64