分組

GroupedData.agg(* exprs)

計算聚合並返回結果DataFrame

GroupedData.apply(udf)

這是一個別名pyspark.sql.GroupedData.applyInPandas ();然而,它需要一個pyspark.sql.functions.pandas_udf ()pyspark.sql.GroupedData.applyInPandas ()Python本機函數。

GroupedData.applyInPandas(函數模式)

地圖每組的電流DataFrame使用一個熊貓udf和返回結果DataFrame

GroupedData.avg(*峽路)

計算平均值為每組每個數字列。

GroupedData.cogroup(其他)

Cogroups這組與另一組,這樣我們可以運行cogrouped操作。

GroupedData.count()

計算每組的數量的記錄。

GroupedData.max(*峽路)

計算每個數字列的最大價值為每個組。

GroupedData.mean(*峽路)

計算平均值為每組每個數字列。

GroupedData.min(*峽路)

計算最小值為每組每個數字列。

GroupedData.pivot(pivot_col[、價值觀)

軸心的一列DataFrame並執行指定的聚合。

GroupedData.sum(*峽路)

計算每個組每個數字列的總和。

PandasCogroupedOps.applyInPandas(函數模式)

一個函數適用於每個cogroup使用熊貓和返回結果DataFrame