pyspark.pandas.groupby.GroupBy.median¶
-
GroupBy。
中位數
( numeric_only:可選(bool]=真正的,精度:int=10000年 )→FrameLike¶ -
計算值的組,除缺失值。
為多個分組,結果指數將MultiIndex
請注意
不像大熊貓,中位數在pandas-on-Spark近似基於中值近似百分比計算,因為計算值在一個大型數據集非常昂貴。
- 參數
-
- numeric_only bool,默認的錯誤
-
隻包括浮動,int,布爾列。如果沒有,將嚐試使用一切,然後隻使用數字數據。
- 返回
-
- 係列或DataFrame
-
在每一組中位數的值。
例子
> > >psdf=ps。DataFrame({“一個”:(1。,1。,1。,1。,2。,2。,2。,3所示。,3所示。,3所示。),…“b”:(2。,3所示。,1。,4所示。,6。,9。,8。,10。,7所示。,5。),…“c”:(3所示。,5。,2。,5。,1。,2。,6。,4所示。,3所示。,6。)},…列=(“一個”,“b”,“c”),…指數=(7,2,4,1,3,4,9,10,5,6])> > >psdfa b c7 1.0 2.0 3.02 1.0 3.0 5.04 1.0 1.0 2.01 1.0 4.0 5.03 2.0 6.0 1.04 2.0 9.0 2.09 2.0 8.0 6.0十3.0 10.0 4.05 3.0 7.0 3.06 3.0 5.0 6.0
DataFrameGroupBy
> > >psdf。groupby(“一個”)。中位數()。sort_index()b c一個1.0 2.0 3.02.0 8.0 2.03.0 7.0 4.0
SeriesGroupBy
> > >psdf。groupby(“一個”)[“b”]。中位數()。sort_index()一個1.0 - 2.02.0 - 8.03.0 - 7.0名稱:b, dtype: float64