pyspark.sql.functions.approx_count_distinct

pyspark.sql.functions。 approx_count_distinct ( 上校:ColumnOrName,標準偏差:可選(浮動]=沒有一個 )→pyspark.sql.column.Column

聚合函數:返回一個新的近似不同的列數上校

參數
上校 或str
標準偏差 浮動,可選

最大相對標準偏差允許(缺省值= 0.05)。相對標準偏差< 0.01,更高效的使用count_distinct ()

例子

> > >dfgg(approx_count_distinct(df年齡)別名(“distinct_ages”))收集()(行(distinct_ages = 2))