pyspark.sql.DataFrame.groupBy

DataFrame。 groupBy ( *關口:ColumnOrName )→GroupedData

組的DataFrame使用指定的列,所以我們可以運行聚合。看到GroupedData對所有可用的聚合函數。

groupby ()是一個別名groupBy ()

參數
關口 列表,str或

列組。每個元素應該是一個列名(字符串)或一個表達式()。

例子

> > >dfgroupBy()avg()收集()行(avg(年齡)= 3.5)]> > >排序(dfgroupBy(“名字”)gg({“年齡”:“的意思是”})收集())行(name =“愛麗絲”,avg(年齡)= 2.0)、行(name =“鮑勃”,avg(年齡)= 5.0)]> > >排序(dfgroupBy(df的名字)avg()收集())行(name =“愛麗絲”,avg(年齡)= 2.0)、行(name =“鮑勃”,avg(年齡)= 5.0)]> > >排序(dfgroupBy([“名字”,df年齡])()收集())行(name =“愛麗絲”,年齡= 2,count = 1)、行(name =“鮑勃”,年齡= 5,count = 1))