pyspark.pandas.Series.nunique

係列。 nunique ( dropna:bool=真正的,:bool=,標準偏差:浮動=0.05 )→int

返回對象的獨特的元素數量。排除了NA默認值。

參數
dropna bool,默認的真

不包括南的計數。

約:bool,默認的錯誤

如果錯誤,將使用獨特的具體算法和返回的確切數量。如果這是真的,它使用HyperLogLog近似算法,這是大量的數據更快。注意:這個參數是特定於pandas-on-Spark和沒有找到熊貓。

相對標準偏差:浮動,默認0.05

最大估計誤差允許在HyperLogLog算法。注意:就像這個參數是特定於pandas-on-Spark。

返回
int

另請參閱

DataFrame.nunique

方法對DataFrame nunique。

Series.count

計數non-NA /零係列的觀察。

例子

> > >ps係列([1,2,3,np])nunique()3
> > >ps係列([1,2,3,np])nunique(dropna=)4

在大數據,我們建議使用的近似算法來加快這個函數。結果將是非常接近的獨特的計數。

> > >ps係列([1,2,3,np])nunique(=真正的)3
> > >idx=ps指數([1,1,2,沒有一個])> > >idxFloat64Index((1.0, 1.0, 2.0,南),dtype =“float64”)
> > >idxnunique()2
> > >idxnunique(dropna=)3