pyspark.RDD.countApproxDistinct¶
-
抽樣。
countApproxDistinct
( relativeSD:浮動=0.05 )→int¶ -
返回近似抽樣數量的不同的元素。
- 參數
-
- relativeSD 浮動,可選
-
相對精度。較小的值創建計數器,需要更多的空間。它必須大於0.000017。
筆記
使用的算法是基於streamlib實現的“HyperLogLog實踐:算法工程先進的基數估計算法”,。
例子
> > >n=sc。並行化(範圍(1000年))。地圖(str)。countApproxDistinct()> > >900年<n<1100年真正的> > >n=sc。並行化([我%20.為我在範圍(1000年)))。countApproxDistinct()> > >16<n<24真正的