pyspark.pandas.Series.groupby

係列。 groupby ( 通過:聯盟(任何元組,…,係列中,列表(聯盟[任何元組,…,係列]]],:聯盟(int,str]=0,as_index:bool=真正的,dropna:bool=真正的 )→SeriesGroupBy

使用一係列列組DataFrame或係列。

分裂的groupby操作涉及了一些組合對象,應用一個函數,並結合結果。這可以用於大量數據和對這些群體計算操作。

參數
通過 係列、標簽或標簽的列表

用於確定groupby組。如果通過係列,該係列或dict值將被用來確定組。一個標簽或標簽列表可能傳遞到組的列自我

int,默認0或“指數”

目前隻能設置為0。

as_index bool,默認的真

聚合輸出,返回對象組標簽的索引。隻對DataFrame輸入相關。as_index = False實際上是“sql風格”分組輸出。

dropna bool,默認的真

如果這是真的,如果組密鑰包含NA價值觀,NA值一起行/列將會下降。如果錯誤,NA值也將被視為組織的關鍵。

返回
DataFrameGroupBy或SeriesGroupBy

取決於調用對象並返回groupby對象包含有關組織的信息。

另請參閱

pyspark.pandas.groupby.GroupBy

例子

> > >df=psDataFrame({“動物”:(“獵鷹”,“獵鷹”,“鸚鵡”,“鸚鵡”),的最高速度:(380年。,370年。,24。,26歲。)},=(“動物”,的最高速度])> > >df動物的最高速度0獵鷹380.01獵鷹370.02隻鸚鵡24.03鸚鵡26.0
> > >dfgroupby([“動物”])的意思是()sort_index()最高速度動物獵鷹375.0鸚鵡25.0
> > >dfgroupby([“動物”),as_index=)的意思是()sort_values(“動物”)動物的最高速度…獵鷹375.0…鸚鵡25.0

我們也可以選擇包括NA組鍵或不通過設置dropna參數,默認設置是正確的:

> > >l=[[1,2,3),(1,沒有一個,4),(2,1,3),(1,2,2]]> > >df=psDataFrame(l,=(“一個”,“b”,“c”])> > >dfgroupby(通過=(“b”])總和()sort_index()一個cb1.0 - 2 32.0 - 2 5
> > >dfgroupby(通過=(“b”),dropna=)總和()sort_index()一個cb1.0 - 2 32.0 - 2 5南1 4