pyspark.pandas.groupby.DataFrameGroupBy.aggregate¶

DataFrameGroupBy。 總 ( func_or_funcs:聯盟(str、列表(str) Dict[聯盟[任何元組[,…]],聯盟[str、列表(str)]],沒有)=沒有一個,*arg遊戲:任何,* *kwargs:任何 )→pyspark.pandas.frame.DataFrame¶

總軸指定使用一個或多個操作。

參數

func_or_funcs dict, str或列表: dict類型映射的列名稱(字符串)聚合函數(字符串或字符串的列表)。

返回

係列或DataFrame

還可以是:

當DataFrame係列:。ggis called with a single function
當DataFrame DataFrame:。ggis called with several functions

返回係列或DataFrame。

另請參閱

pyspark.pandas.Series.groupby
pyspark.pandas.DataFrame.groupby

筆記

gg是一個別名總。使用別名。

例子

           > > >df=ps。DataFrame({“一個”:(1,1,2,2),…“B”:(1,2,3,4),…“C”:(0.362,0.227,1.267,- - - - - -0.562)},…列=(“一個”,“B”,“C”])
          

           > > >dfA B C0 1 1 0.3621 1 2 0.2272 2 3 1.2673 2 4 -0.562
          

不同的聚合每列

           > > >聚合=df。groupby(“一個”)。gg({“B”:“最小值”,“C”:“和”})> > >聚合[[“B”,“C”]]。sort_index()B C一個1 1 0.5892 3 0.705
          

           > > >聚合=df。groupby(“一個”)。gg({“B”:(“最小值”,“馬克斯”]})> > >聚合。sort_index()B分鍾馬克斯一個1 1 22 3 4
          

           > > >聚合=df。groupby(“一個”)。gg(“最小值”)> > >聚合。sort_index()B C一個1 1 0.2272 3 -0.562
          

           > > >聚合=df。groupby(“一個”)。gg([“最小值”,“馬克斯”])> > >聚合。sort_index()B C最小馬克斯最小最大一個1 1 2 0.227 - 0.3622 3 4 -0.562 - 1.267
          

控製輸出每列名稱不同的聚合,pandas-on-Spark還支持“叫聚合”或嵌套在.agg重命名。時也可以使用多個聚合函數應用到特定的列。

           > > >聚合=df。groupby(“一個”)。gg(b_max=ps。NamedAgg(列=“B”,aggfunc=“馬克斯”))> > >聚合。sort_index()b_max一個1 22 4
          

           > > >聚合=df。groupby(“一個”)。gg(b_max=(“B”,“馬克斯”),b_min=(“B”,“最小值”))> > >聚合。sort_index()b_max b_min一個1 2 12 4 3
          

           > > >聚合=df。groupby(“一個”)。gg(b_max=(“B”,“馬克斯”),c_min=(“C”,“最小值”))> > >聚合。sort_index()b_max c_min一個1 2 0.2272 4 -0.562
          

以前的

pyspark.pandas.groupby.DataFrameGroupBy.agg

下一個

pyspark.pandas.groupby.GroupBy.all