pyspark.sql.DataFrame.groupBy¶

DataFrame。 groupBy ( *關口:ColumnOrName )→GroupedData¶

組的DataFrame使用指定的列,所以我們可以運行聚合。看到GroupedData對所有可用的聚合函數。

groupby ()是一個別名groupBy ()。

參數

關口列表,str或列: 列組。每個元素應該是一個列名(字符串)或一個表達式(列)。

例子

           > > >df。groupBy()。avg()。收集()行(avg(年齡)= 3.5)]> > >排序(df。groupBy(“名字”)。gg({“年齡”:“的意思是”})。收集())行(name =“愛麗絲”,avg(年齡)= 2.0)、行(name =“鮑勃”,avg(年齡)= 5.0)]> > >排序(df。groupBy(df。的名字)。avg()。收集())行(name =“愛麗絲”,avg(年齡)= 2.0)、行(name =“鮑勃”,avg(年齡)= 5.0)]> > >排序(df。groupBy([“名字”,df。年齡])。數()。收集())行(name =“愛麗絲”,年齡= 2,count = 1)、行(name =“鮑勃”,年齡= 5,count = 1))
          

以前的

pyspark.sql.DataFrame.freqItems

下一個

pyspark.sql.DataFrame.head