pyspark.pandas.DataFrame.nunique

DataFrame。 nunique ( :聯盟(int,str]=0,dropna:bool=真正的,:bool=,標準偏差:浮動=0.05 )→係列

返回對象的獨特的元素數量。

排除了NA默認值。

參數
int,默認0或“指數”

目前隻能設置為0。

dropna bool,默認的真

不包括南的計數。

約:bool,默認的錯誤

如果錯誤,將使用獨特的具體算法和返回的確切數量。如果這是真的,它使用HyperLogLog近似算法,這是大量的數據更快。注意:這個參數是特定於pandas-on-Spark和沒有找到熊貓。

相對標準偏差:浮動,默認0.05

最大估計誤差允許在HyperLogLog算法。注意:就像這個參數是特定於pandas-on-Spark。

返回
惟一的值的數量每列pandas-on-Spark係列。

例子

> > >df=psDataFrame({“一個”:(1,2,3),“B”:(np,3,np]})> > >dfnunique()一個3B 1dtype: int64
> > >dfnunique(dropna=)一個3B 2dtype: int64

在大數據,我們建議使用的近似算法來加快這個函數。結果將是非常接近的獨特的計數。

> > >dfnunique(=真正的)一個3B 1dtype: int64