pyspark.sql.GroupedData

pyspark.sql。 GroupedData ( jgd:py4j.java_gateway.JavaObject,df:pyspark.sql.dataframe.DataFrame )

一組的聚合方法DataFrame,由DataFrame.groupBy ()

方法

gg(* exprs)

計算聚合並返回結果DataFrame

應用(udf)

這是一個別名pyspark.sql.GroupedData.applyInPandas ();然而,它需要一個pyspark.sql.functions.pandas_udf ()pyspark.sql.GroupedData.applyInPandas ()Python本機函數。

applyInPandas(函數模式)

地圖每組的電流DataFrame使用一個熊貓udf和返回結果DataFrame

avg(*峽路)

計算平均值為每組每個數字列。

cogroup(其他)

Cogroups這組與另一組,這樣我們可以運行cogrouped操作。

()

計算每組的數量的記錄。

馬克斯(*峽路)

計算每個數字列的最大價值為每個組。

的意思是(*峽路)

計算平均值為每組每個數字列。

最小值(*峽路)

計算最小值為每組每個數字列。

(pivot_col[、價值觀)

軸心的一列DataFrame並執行指定的聚合。

總和(*峽路)

計算每個組每個數字列的總和。