pyspark.RDD.countApproxDistinct

抽樣。 countApproxDistinct ( relativeSD:浮動=0.05 )→int

返回近似抽樣數量的不同的元素。

參數
relativeSD 浮動,可選

相對精度。較小的值創建計數器,需要更多的空間。它必須大於0.000017。

筆記

使用的算法是基於streamlib實現的“HyperLogLog實踐:算法工程先進的基數估計算法”,

例子

> > >n=sc並行化(範圍(1000年))地圖(str)countApproxDistinct()> > >900年<n<1100年真正的> > >n=sc並行化([%20.範圍(1000年)))countApproxDistinct()> > >16<n<24真正的