pyspark.sql.DataFrame.approxQuantile¶
-
DataFrame。
approxQuantile
( 上校:聯盟(str,列表(str],元組(str]],概率:聯盟(列表(浮動],元組(浮動]],relativeError:浮動 )→聯盟(列表(浮動] ,列表(列表(浮動] ] ] ¶ -
計算的近似數值列的分位數
DataFrame
。該算法的結果有以下確定性約束:如果
DataFrame
有N個元素如果我們請求在概率分位數嗎p到錯誤犯錯,那麼該算法將返回一個樣本x從DataFrame
這樣確切的的秩x接近(p * N)。更準確地說,地板((p -犯錯)* N) < =排名(x) < =裝天花板((p +犯錯)* N)。
這種方法實現的一個變體Greenwald-Khanna算法(一些速度優化)。該算法首先出現在[[https://doi.org/10.1145/375663.375670空間效率在線計算的分位數摘要]]格林沃爾德和卡納。
注意,null值將被忽略在數值列計算。僅供列包含空值,則返回一個空列表。
- 參數
-
- 上校:str,元組或列表
-
可以單個列的名字,或者多個列的名單。
添加支持多個列。
- 概率 列表或元組
-
分位數概率每個數字的列表必須屬於[0,1]。例如0是最低,0.5是中值,1是最大的。
- relativeError 浮動
-
相對精度達到目標(> = 0)。如果設置為0,準確的分位數計算,這可能是非常昂貴的。請注意接受值大於1,但給相同的結果為1。
- 返回
-
- 列表
-
給出的近似分位數的概率。如果輸入上校是一個字符串,輸出是漂浮的列表。如果輸入上校是一個列表或元組的字符串,輸出也是一個列表,但每個元素是一個漂浮的列表,即。的輸出是一個列表的列表。