pyspark.pandas.groupby.DataFrameGroupBy.describe¶

DataFrameGroupBy。 描述 ( )→pyspark.pandas.frame.DataFrame¶

產生描述性統計,總結集中趨勢,分散和形狀數據集的分布、排除南值。

分析數字和對象係列,以及DataFrame列集的混合數據類型。輸出取決於是什麼。請參考下麵的備注更多細節。

請注意

不像熊貓,pandas-on-Spark的百分位數是基於近似計算百分位數百分比計算,因為在一個大型數據集是非常昂貴的。

返回

DataFrame: 提供的DataFrame彙總統計信息。

另請參閱

DataFrame.count
DataFrame.max
DataFrame.min
DataFrame.mean
DataFrame.std

例子

           > > >df=ps。DataFrame({“一個”:(1,1,3),“b”:(4,5,6),“c”:(7,8,9]})> > >dfa b c0 1 4 71 1 5 82 3 6 9
          

描述一個DataFrame。默認情況下隻返回數值字段。

           > > >描述=df。groupby(“一個”)。描述()> > >描述。sort_index()b c數是性病最小25% 50% 75%最大計數是性病最小25% 50% 75%最大一個1 2.0 4.5 0.707107 4.0 4.0 4.0 5.0 5.0 2.0 7.5 0.707107 7.0 7.0 7.0 8.0 8.03南6.0 6.0 6.0 6.0 1.0 6.0 9.0 9.0 9.0 9.0 9.0 6.0 1.0 9.0南
          

以前的

pyspark.pandas.groupby.GroupBy.tail

下一個

pyspark.pandas.groupby.SeriesGroupBy.nsmallest