pyspark.pandas.groupby.GroupBy.median

GroupBy。 中位數 ( numeric_only:可選(bool]=真正的,精度:int=10000年 )→FrameLike

計算值的組,除缺失值。

為多個分組,結果指數將MultiIndex

請注意

不像大熊貓,中位數在pandas-on-Spark近似基於中值近似百分比計算,因為計算值在一個大型數據集非常昂貴。

參數
numeric_only bool,默認的錯誤

隻包括浮動,int,布爾列。如果沒有,將嚐試使用一切,然後隻使用數字數據。

返回
係列或DataFrame

在每一組中位數的值。

例子

> > >psdf=psDataFrame({“一個”:(1。,1。,1。,1。,2。,2。,2。,3所示。,3所示。,3所示。),“b”:(2。,3所示。,1。,4所示。,6。,9。,8。,10。,7所示。,5。),“c”:(3所示。,5。,2。,5。,1。,2。,6。,4所示。,3所示。,6。)},=(“一個”,“b”,“c”),指數=(7,2,4,1,3,4,9,10,5,6])> > >psdfa b c7 1.0 2.0 3.02 1.0 3.0 5.04 1.0 1.0 2.01 1.0 4.0 5.03 2.0 6.0 1.04 2.0 9.0 2.09 2.0 8.0 6.0十3.0 10.0 4.05 3.0 7.0 3.06 3.0 5.0 6.0

DataFrameGroupBy

> > >psdfgroupby(“一個”)中位數()sort_index()b c一個1.0 2.0 3.02.0 8.0 2.03.0 7.0 4.0

SeriesGroupBy

> > >psdfgroupby(“一個”)[“b”]中位數()sort_index()一個1.0 - 2.02.0 - 8.03.0 - 7.0名稱:b, dtype: float64