pyspark.sql.GroupedData.pivot

GroupedData。 ( pivot_col:str,:可選(列表(LiteralType]]=沒有一個 )→GroupedData

軸心的一列DataFrame並執行指定的聚合。主函數的有兩個版本:一個需要調用者指定不同的值的列表主,和一個不。後者更簡潔但效率較低,因為火花需要首先計算內部不同值的列表。

參數
pivot_col str

列主元素的名稱。

列表中,選

的值列表,將翻譯DataFrame列輸出。

例子

#計算收益的總和為每年課程每個課程作為一個單獨的列中

> > >df4groupBy(“年”)(“課程”,(“dotNET”,“Java”])總和(“收益”)收集()行(年= 2012,dotNET = 15000, Java = 20000),行(年= 2013,dotNET = 48000, Java = 30000)]

#或沒有指定列值(效率低)

> > >df4groupBy(“年”)(“課程”)總和(“收益”)收集()行(年= 2012,Java = 20000, dotNET = 15000)、行(年= 2013,Java = 30000, dotNET = 48000)]> > >df5groupBy(“sales.year”)(“sales.course”)總和(“sales.earnings”)收集()行(年= 2012,Java = 20000, dotNET = 15000)、行(年= 2013,Java = 30000, dotNET = 48000)]