pyspark.sql.DataFrame.groupBy¶
-
DataFrame。
groupBy
( *關口:ColumnOrName )→GroupedData¶ -
組的
DataFrame
使用指定的列,所以我們可以運行聚合。看到GroupedData
對所有可用的聚合函數。groupby ()
是一個別名groupBy ()
。例子
> > >df。groupBy()。avg()。收集()行(avg(年齡)= 3.5)]> > >排序(df。groupBy(“名字”)。gg({“年齡”:“的意思是”})。收集())行(name =“愛麗絲”,avg(年齡)= 2.0)、行(name =“鮑勃”,avg(年齡)= 5.0)]> > >排序(df。groupBy(df。的名字)。avg()。收集())行(name =“愛麗絲”,avg(年齡)= 2.0)、行(name =“鮑勃”,avg(年齡)= 5.0)]> > >排序(df。groupBy([“名字”,df。年齡])。數()。收集())行(name =“愛麗絲”,年齡= 2,count = 1)、行(name =“鮑勃”,年齡= 5,count = 1))