pyspark.pandas.groupby.DataFrameGroupBy.aggregate

DataFrameGroupBy。 ( func_or_funcs:聯盟(str、列表(str) Dict[聯盟[任何元組[,…]],聯盟[str、列表(str)]],沒有)=沒有一個,*arg遊戲:任何,* *kwargs:任何 )→pyspark.pandas.frame.DataFrame

總軸指定使用一個或多個操作。

參數
func_or_funcs dict, str或列表

dict類型映射的列名稱(字符串)聚合函數(字符串或字符串的列表)。

返回
係列或DataFrame

還可以是:

  • 當DataFrame係列:。ggis called with a single function

  • 當DataFrame DataFrame:。ggis called with several functions

返回係列或DataFrame。

筆記

gg是一個別名。使用別名。

例子

> > >df=psDataFrame({“一個”:(1,1,2,2),“B”:(1,2,3,4),“C”:(0.362,0.227,1.267,- - - - - -0.562)},=(“一個”,“B”,“C”])
> > >dfA B C0 1 1 0.3621 1 2 0.2272 2 3 1.2673 2 4 -0.562

不同的聚合每列

> > >聚合=dfgroupby(“一個”)gg({“B”:“最小值”,“C”:“和”})> > >聚合[[“B”,“C”]]sort_index()B C一個1 1 0.5892 3 0.705
> > >聚合=dfgroupby(“一個”)gg({“B”:(“最小值”,“馬克斯”]})> > >聚合sort_index()B分鍾馬克斯一個1 1 22 3 4
> > >聚合=dfgroupby(“一個”)gg(“最小值”)> > >聚合sort_index()B C一個1 1 0.2272 3 -0.562
> > >聚合=dfgroupby(“一個”)gg([“最小值”,“馬克斯”])> > >聚合sort_index()B C最小馬克斯最小最大一個1 1 2 0.227 - 0.3622 3 4 -0.562 - 1.267

控製輸出每列名稱不同的聚合,pandas-on-Spark還支持“叫聚合”或嵌套在.agg重命名。時也可以使用多個聚合函數應用到特定的列。

> > >聚合=dfgroupby(“一個”)gg(b_max=psNamedAgg(=“B”,aggfunc=“馬克斯”))> > >聚合sort_index()b_max一個1 22 4
> > >聚合=dfgroupby(“一個”)gg(b_max=(“B”,“馬克斯”),b_min=(“B”,“最小值”))> > >聚合sort_index()b_max b_min一個1 2 12 4 3
> > >聚合=dfgroupby(“一個”)gg(b_max=(“B”,“馬克斯”),c_min=(“C”,“最小值”))> > >聚合sort_index()b_max c_min一個1 2 0.2272 4 -0.562