pyspark.pandas.groupby.DataFrameGroupBy.describe¶
-
DataFrameGroupBy。
描述
( )→pyspark.pandas.frame.DataFrame¶ -
產生描述性統計,總結集中趨勢,分散和形狀數據集的分布、排除
南
值。分析數字和對象係列,以及
DataFrame
列集的混合數據類型。輸出取決於是什麼。請參考下麵的備注更多細節。請注意
不像熊貓,pandas-on-Spark的百分位數是基於近似計算百分位數百分比計算,因為在一個大型數據集是非常昂貴的。
- 返回
-
- DataFrame
-
提供的DataFrame彙總統計信息。
另請參閱
-
DataFrame.count
-
DataFrame.max
-
DataFrame.min
-
DataFrame.mean
-
DataFrame.std
例子
> > >df=ps。DataFrame({“一個”:(1,1,3),“b”:(4,5,6),“c”:(7,8,9]})> > >dfa b c0 1 4 71 1 5 82 3 6 9
描述一個
DataFrame
。默認情況下隻返回數值字段。> > >描述=df。groupby(“一個”)。描述()> > >描述。sort_index()b c數是性病最小25% 50% 75%最大計數是性病最小25% 50% 75%最大一個1 2.0 4.5 0.707107 4.0 4.0 4.0 5.0 5.0 2.0 7.5 0.707107 7.0 7.0 7.0 8.0 8.03南6.0 6.0 6.0 6.0 1.0 6.0 9.0 9.0 9.0 9.0 9.0 6.0 1.0 9.0南