pyspark.sql.GroupedData.pivot¶
-
GroupedData。
主
( pivot_col:str,值:可選(列表(LiteralType]]=沒有一個 )→GroupedData¶ -
軸心的一列
DataFrame
並執行指定的聚合。主函數的有兩個版本:一個需要調用者指定不同的值的列表主,和一個不。後者更簡潔但效率較低,因為火花需要首先計算內部不同值的列表。- 參數
-
- pivot_col str
-
列主元素的名稱。
- 值 列表中,選
-
的值列表,將翻譯DataFrame列輸出。
例子
#計算收益的總和為每年課程每個課程作為一個單獨的列中
> > >df4。groupBy(“年”)。主(“課程”,(“dotNET”,“Java”])。總和(“收益”)。收集()行(年= 2012,dotNET = 15000, Java = 20000),行(年= 2013,dotNET = 48000, Java = 30000)]
#或沒有指定列值(效率低)
> > >df4。groupBy(“年”)。主(“課程”)。總和(“收益”)。收集()行(年= 2012,Java = 20000, dotNET = 15000)、行(年= 2013,Java = 30000, dotNET = 48000)]> > >df5。groupBy(“sales.year”)。主(“sales.course”)。總和(“sales.earnings”)。收集()行(年= 2012,Java = 20000, dotNET = 15000)、行(年= 2013,Java = 30000, dotNET = 48000)]