pyspark.pandas.DataFrame.nunique¶

DataFrame。 nunique ( 軸:聯盟(int,str]=0,dropna:bool=真正的,約:bool=假,標準偏差:浮動=0.05 )→係列¶

返回對象的獨特的元素數量。

排除了NA默認值。

參數

軸 int,默認0或“指數”: 目前隻能設置為0。
dropna bool,默認的真: 不包括南的計數。
約:bool,默認的錯誤: 如果錯誤,將使用獨特的具體算法和返回的確切數量。如果這是真的,它使用HyperLogLog近似算法,這是大量的數據更快。注意:這個參數是特定於pandas-on-Spark和沒有找到熊貓。
相對標準偏差:浮動,默認0.05: 最大估計誤差允許在HyperLogLog算法。注意:就像約這個參數是特定於pandas-on-Spark。

返回

例子

           > > >df=ps。DataFrame({“一個”:(1,2,3),“B”:(np。南,3,np。南]})> > >df。nunique()一個3B 1dtype: int64
          

           > > >df。nunique(dropna=假)一個3B 2dtype: int64
          

在大數據,我們建議使用的近似算法來加快這個函數。結果將是非常接近的獨特的計數。

           > > >df。nunique(約=真正的)一個3B 1dtype: int64
          

以前的

pyspark.pandas.DataFrame.quantile

下一個

pyspark.pandas.DataFrame.sem