pyspark.pandas.groupby.GroupBy.median¶

GroupBy。 中位數 ( numeric_only:可選(bool]=真正的,精度:int=10000年 )→FrameLike¶

計算值的組,除缺失值。

為多個分組,結果指數將MultiIndex

請注意

不像大熊貓,中位數在pandas-on-Spark近似基於中值近似百分比計算,因為計算值在一個大型數據集非常昂貴。

參數

numeric_only bool,默認的錯誤: 隻包括浮動,int,布爾列。如果沒有,將嚐試使用一切,然後隻使用數字數據。

返回

係列或DataFrame: 在每一組中位數的值。

例子

           > > >psdf=ps。DataFrame({“一個”:(1。,1。,1。,1。,2。,2。,2。,3所示。,3所示。,3所示。),…“b”:(2。,3所示。,1。,4所示。,6。,9。,8。,10。,7所示。,5。),…“c”:(3所示。,5。,2。,5。,1。,2。,6。,4所示。,3所示。,6。)},…列=(“一個”,“b”,“c”),…指數=(7,2,4,1,3,4,9,10,5,6])> > >psdfa b c7 1.0 2.0 3.02 1.0 3.0 5.04 1.0 1.0 2.01 1.0 4.0 5.03 2.0 6.0 1.04 2.0 9.0 2.09 2.0 8.0 6.0十3.0 10.0 4.05 3.0 7.0 3.06 3.0 5.0 6.0
          

DataFrameGroupBy

           > > >psdf。groupby(“一個”)。中位數()。sort_index()b c一個1.0 2.0 3.02.0 8.0 2.03.0 7.0 4.0
          

SeriesGroupBy

           > > >psdf。groupby(“一個”)[“b”]。中位數()。sort_index()一個1.0 - 2.02.0 - 8.03.0 - 7.0名稱:b, dtype: float64
          

以前的

pyspark.pandas.groupby.GroupBy.mean

下一個

pyspark.pandas.groupby.GroupBy.min