pyspark.pandas.DataFrame.nunique¶
-
DataFrame。
nunique
( 軸:聯盟(int,str]=0,dropna:bool=真正的,約:bool=假,標準偏差:浮動=0.05 )→係列¶ -
返回對象的獨特的元素數量。
排除了NA默認值。
- 參數
-
- 軸 int,默認0或“指數”
-
目前隻能設置為0。
- dropna bool,默認的真
-
不包括南的計數。
- 約:bool,默認的錯誤
-
如果錯誤,將使用獨特的具體算法和返回的確切數量。如果這是真的,它使用HyperLogLog近似算法,這是大量的數據更快。注意:這個參數是特定於pandas-on-Spark和沒有找到熊貓。
- 相對標準偏差:浮動,默認0.05
-
最大估計誤差允許在HyperLogLog算法。注意:就像
約
這個參數是特定於pandas-on-Spark。
- 返回
-
- 惟一的值的數量每列pandas-on-Spark係列。
例子
> > >df=ps。DataFrame({“一個”:(1,2,3),“B”:(np。南,3,np。南]})> > >df。nunique()一個3B 1dtype: int64
> > >df。nunique(dropna=假)一個3B 2dtype: int64
在大數據,我們建議使用的近似算法來加快這個函數。結果將是非常接近的獨特的計數。
> > >df。nunique(約=真正的)一個3B 1dtype: int64