pyspark.pandas.groupby.DataFrameGroupBy.describe

DataFrameGroupBy。 描述 ( )→pyspark.pandas.frame.DataFrame

產生描述性統計,總結集中趨勢,分散和形狀數據集的分布、排除值。

分析數字和對象係列,以及DataFrame列集的混合數據類型。輸出取決於是什麼。請參考下麵的備注更多細節。

請注意

不像熊貓,pandas-on-Spark的百分位數是基於近似計算百分位數百分比計算,因為在一個大型數據集是非常昂貴的。

返回
DataFrame

提供的DataFrame彙總統計信息。

另請參閱

DataFrame.count
DataFrame.max
DataFrame.min
DataFrame.mean
DataFrame.std

例子

> > >df=psDataFrame({“一個”:(1,1,3),“b”:(4,5,6),“c”:(7,8,9]})> > >dfa b c0 1 4 71 1 5 82 3 6 9

描述一個DataFrame。默認情況下隻返回數值字段。

> > >描述=dfgroupby(“一個”)描述()> > >描述sort_index()b c數是性病最小25% 50% 75%最大計數是性病最小25% 50% 75%最大一個1 2.0 4.5 0.707107 4.0 4.0 4.0 5.0 5.0 2.0 7.5 0.707107 7.0 7.0 7.0 8.0 8.03南6.0 6.0 6.0 6.0 1.0 6.0 9.0 9.0 9.0 9.0 9.0 6.0 1.0 9.0南