pyspark.pandas.Series.nunique¶

係列。 nunique ( dropna:bool=真正的,約:bool=假,標準偏差:浮動=0.05 )→int¶

返回對象的獨特的元素數量。排除了NA默認值。

參數

dropna bool,默認的真: 不包括南的計數。
約:bool,默認的錯誤: 如果錯誤,將使用獨特的具體算法和返回的確切數量。如果這是真的,它使用HyperLogLog近似算法,這是大量的數據更快。注意:這個參數是特定於pandas-on-Spark和沒有找到熊貓。
相對標準偏差:浮動,默認0.05: 最大估計誤差允許在HyperLogLog算法。注意:就像約這個參數是特定於pandas-on-Spark。

返回

另請參閱

例子

           > > >ps。係列([1,2,3,np。南])。nunique()3
          

           > > >ps。係列([1,2,3,np。南])。nunique(dropna=假)4
          

在大數據,我們建議使用的近似算法來加快這個函數。結果將是非常接近的獨特的計數。

           > > >ps。係列([1,2,3,np。南])。nunique(約=真正的)3
          

           > > >idx=ps。指數([1,1,2,沒有一個])> > >idxFloat64Index((1.0, 1.0, 2.0,南),dtype =“float64”)
          

           > > >idx。nunique()2
          

           > > >idx。nunique(dropna=假)3
          

以前的

pyspark.pandas.Series.prod

下一個

pyspark.pandas.Series.is_unique