pyspark.pandas.MultiIndex.value_counts¶
-
MultiIndex。
value_counts
( 正常化:bool=假,排序:bool=真正的,提升:bool=假,垃圾箱:沒有一個=沒有一個,dropna:bool=真正的 )→係列¶ -
返回包含項係列獨特的價值觀。由此產生的對象將在降序排列,這樣第一個元素是最常見的元素。排除了NA默認值。
- 參數
-
- 正常化 布爾,默認的錯誤
-
如果真的那麼返回的對象將包含獨特的相對頻率值。
- 排序 布爾,默認的真
-
排序值。
- 提升 布爾,默認的錯誤
-
按升序排序。
- 垃圾箱 不支持
- dropna 布爾,默認的真
-
不包括項南。
- 返回
-
- 計數 係列
另請參閱
-
Series.count
-
在一係列non-NA元素的數量。
例子
對係列
> > >df=ps。DataFrame({“x”:【0,0,1,1,1,np。南]})> > >df。x。value_counts()1.0 - 30.0 - 2名稱:x, dtype: int64
與正常化設置為真正的,返回所有值除以相對頻率值的總和。
> > >df。x。value_counts(正常化=真正的)1.0 - 0.60.0 - 0.4名稱:x, dtype: float64
dropna與dropna設置為假我們還可以看到南索引值。
> > >df。x。value_counts(dropna=假)1.0 - 30.0 - 2南1名稱:x, dtype: int64
對指數
> > >idx=ps。指數([3,1,2,3,4,np。南])> > >idxFloat64Index([3.0, 1.0, 2.0, 3.0, 4.0,南),dtype =“float64”)
> > >idx。value_counts()。sort_index()1.0 - 12.0 - 13.0 - 24.0 - 1dtype: int64
排序
與排序設置為假,結果不會是按數量的計數。
> > >idx。value_counts(排序=真正的)。sort_index()1.0 - 12.0 - 13.0 - 24.0 - 1dtype: int64
正常化
與正常化設置為真正的,返回所有值除以相對頻率值的總和。
> > >idx。value_counts(正常化=真正的)。sort_index()1.0 - 0.22.0 - 0.23.0 - 0.44.0 - 0.2dtype: float64
dropna
與dropna設置為假我們還可以看到南索引值。
> > >idx。value_counts(dropna=假)。sort_index()1.0 - 12.0 - 13.0 - 24.0 - 1南1dtype: int64
MultiIndex。
> > >midx=pd。MultiIndex([[“喇嘛”,“牛”,“獵鷹”),…(“速度”,“重量”,“長度”]],…[[0,0,0,1,1,1,2,2,2),…(1,1,1,1,1,2,1,2,2]])> > >年代=ps。係列([45,200年,1.2,30.,250年,1.5,320年,1,0.3),指數=midx)> > >年代。指數MultiIndex([(“喇嘛”,“體重”),(“喇嘛”、“重量”)(“喇嘛”、“重量”)(“牛”、“重量”)(“牛”、“重量”)(“牛”、“長度”),(“獵鷹”、“重量”)(“獵鷹”、“長度”),(“獵鷹”、“長度”),)
> > >年代。指數。value_counts()。sort_index()(牛、長度)1(牛、體重)2(獵鷹、長度)2(獵鷹、體重)1(喇嘛、體重)3dtype: int64
> > >年代。指數。value_counts(正常化=真正的)。sort_index()0.111111(牛、長度)0.222222(牛、重量)0.222222(獵鷹、長度)0.111111(獵鷹、重量)0.333333(喇嘛、重量)dtype: float64
如果指數名稱,保持這個名字。
> > >idx=ps。指數([0,0,0,1,1,2,3),的名字=“pandas-on-Spark”)> > >idx。value_counts()。sort_index()0 31 22 13個1名稱:pandas-on-Spark dtype: int64