pyspark.pandas.groupby.DataFrameGroupBy.aggregate¶
-
DataFrameGroupBy。
總
( func_or_funcs:聯盟(str、列表(str) Dict[聯盟[任何元組[,…]],聯盟[str、列表(str)]],沒有)=沒有一個,*arg遊戲:任何,* *kwargs:任何 )→pyspark.pandas.frame.DataFrame¶ -
總軸指定使用一個或多個操作。
- 參數
-
- func_or_funcs dict, str或列表
-
dict類型映射的列名稱(字符串)聚合函數(字符串或字符串的列表)。
- 返回
-
- 係列或DataFrame
-
還可以是:
當DataFrame係列:。ggis called with a single function
當DataFrame DataFrame:。ggis called with several functions
返回係列或DataFrame。
筆記
gg是一個別名總。使用別名。
例子
> > >df=ps。DataFrame({“一個”:(1,1,2,2),…“B”:(1,2,3,4),…“C”:(0.362,0.227,1.267,- - - - - -0.562)},…列=(“一個”,“B”,“C”])
> > >dfA B C0 1 1 0.3621 1 2 0.2272 2 3 1.2673 2 4 -0.562
不同的聚合每列
> > >聚合=df。groupby(“一個”)。gg({“B”:“最小值”,“C”:“和”})> > >聚合[[“B”,“C”]]。sort_index()B C一個1 1 0.5892 3 0.705
> > >聚合=df。groupby(“一個”)。gg({“B”:(“最小值”,“馬克斯”]})> > >聚合。sort_index()B分鍾馬克斯一個1 1 22 3 4
> > >聚合=df。groupby(“一個”)。gg(“最小值”)> > >聚合。sort_index()B C一個1 1 0.2272 3 -0.562
> > >聚合=df。groupby(“一個”)。gg([“最小值”,“馬克斯”])> > >聚合。sort_index()B C最小馬克斯最小最大一個1 1 2 0.227 - 0.3622 3 4 -0.562 - 1.267
控製輸出每列名稱不同的聚合,pandas-on-Spark還支持“叫聚合”或嵌套在.agg重命名。時也可以使用多個聚合函數應用到特定的列。
> > >聚合=df。groupby(“一個”)。gg(b_max=ps。NamedAgg(列=“B”,aggfunc=“馬克斯”))> > >聚合。sort_index()b_max一個1 22 4
> > >聚合=df。groupby(“一個”)。gg(b_max=(“B”,“馬克斯”),b_min=(“B”,“最小值”))> > >聚合。sort_index()b_max b_min一個1 2 12 4 3
> > >聚合=df。groupby(“一個”)。gg(b_max=(“B”,“馬克斯”),c_min=(“C”,“最小值”))> > >聚合。sort_index()b_max c_min一個1 2 0.2272 4 -0.562