pyspark.sql.functions.approx_count_distinct¶
-
pyspark.sql.functions。
approx_count_distinct
( 上校:ColumnOrName,標準偏差:可選(浮動]=沒有一個 )→pyspark.sql.column.Column¶ -
聚合函數:返回一個新的
列
近似不同的列數上校。- 參數
-
-
上校
列
或str - 標準偏差 浮動,可選
-
最大相對標準偏差允許(缺省值= 0.05)。相對標準偏差< 0.01,更高效的使用
count_distinct ()
-
上校
例子
> > >df。gg(approx_count_distinct(df。年齡)。別名(“distinct_ages”))。收集()(行(distinct_ages = 2))