pyspark.pandas.DataFrame.quantile

DataFrame。 分位數 ( :聯盟(浮動,Iterable(浮動]]=0.5,:聯盟(int,str]=0,numeric_only:bool=真正的,精度:int=10000年 )→聯盟(DataFrame,係列]

返回值在給定的分位數。

請注意

不像大熊貓,pandas-on-Spark是一個近似的分位數分位數基於近似計算分位數百分比計算,因為在一個大型數據集是非常昂貴的。

參數
浮動或數組類,默認0.5(50%分位數)

0 < = q < = 1,分位數(s)來計算。

int或str,默認0或“指數”

目前隻能設置為0。

numeric_only bool,默認的真

如果錯誤,分位數的datetime和timedelta數據將被計算。目前隻能設置為True。

精度 int,可選

默認的近似精度。大的值意味著更好的精度。相對誤差可以推導出由1.0 /準確性。

返回
係列或DataFrame

如果問一個數組,返回DataFrame指數q,自我的列的列,分位數的值。如果問一個浮點數,將返回一係列的列索引的位置自我和分位數的值。

例子

> > >psdf=psDataFrame({“一個”:(1,2,3,4,5),“b”:(6,7,8,9,0]})> > >psdf一個b0 1 61 2 72 3 83 4 94 5 0
> > >psdf分位數(5)3.0b 7.0名稱:0.5,dtype: float64
> > >psdf分位數([二十五分,5,綜合成績])一個b0.25 2.0 6.00.50 3.0 7.00.75 4.0 8.0