pyspark.pandas.Series.groupby¶
-
係列。
groupby
( 通過:聯盟(任何元組,…,係列中,列表(聯盟[任何元組,…,係列]]],軸:聯盟(int,str]=0,as_index:bool=真正的,dropna:bool=真正的 )→SeriesGroupBy¶ -
使用一係列列組DataFrame或係列。
分裂的groupby操作涉及了一些組合對象,應用一個函數,並結合結果。這可以用於大量數據和對這些群體計算操作。
- 參數
-
- 通過 係列、標簽或標簽的列表
-
用於確定groupby組。如果通過係列,該係列或dict值將被用來確定組。一個標簽或標簽列表可能傳遞到組的列
自我
。 - 軸 int,默認0或“指數”
-
目前隻能設置為0。
- as_index bool,默認的真
-
聚合輸出,返回對象組標簽的索引。隻對DataFrame輸入相關。as_index = False實際上是“sql風格”分組輸出。
- dropna bool,默認的真
-
如果這是真的,如果組密鑰包含NA價值觀,NA值一起行/列將會下降。如果錯誤,NA值也將被視為組織的關鍵。
- 返回
-
- DataFrameGroupBy或SeriesGroupBy
-
取決於調用對象並返回groupby對象包含有關組織的信息。
另請參閱
-
pyspark.pandas.groupby.GroupBy
例子
> > >df=ps。DataFrame({“動物”:(“獵鷹”,“獵鷹”,…“鸚鵡”,“鸚鵡”),…的最高速度:(380年。,370年。,24。,26歲。)},…列=(“動物”,的最高速度])> > >df動物的最高速度0獵鷹380.01獵鷹370.02隻鸚鵡24.03鸚鵡26.0
> > >df。groupby([“動物”])。的意思是()。sort_index()最高速度動物獵鷹375.0鸚鵡25.0
> > >df。groupby([“動物”),as_index=假)。的意思是()。sort_values(“動物”)…動物的最高速度…獵鷹375.0…鸚鵡25.0
我們也可以選擇包括NA組鍵或不通過設置dropna參數,默認設置是正確的:
> > >l=[[1,2,3),(1,沒有一個,4),(2,1,3),(1,2,2]]> > >df=ps。DataFrame(l,列=(“一個”,“b”,“c”])> > >df。groupby(通過=(“b”])。總和()。sort_index()一個cb1.0 - 2 32.0 - 2 5
> > >df。groupby(通過=(“b”),dropna=假)。總和()。sort_index()一個cb1.0 - 2 32.0 - 2 5南1 4