的細節要求如下:
我有一個表具有以下結構:
所以我必須寫一個代碼pyspark來計算一個新列。
邏輯新列的總和級為不同的類別除以總級,它應該在百分比乘以100來顯示它。
例如類探索新列應該顯示(23.98 + 50.54 + 84.95)/(總級)。
所以應該為每一行日期和類別。
請幫我在框架代碼。
如果你有任何問題,請讓我知道。
我已經附加在excel示例數據。
我在這段代碼結構。基本上每個類別如何劃分和總額的大小。
進口pyspark
從pyspark。sql進口SparkSession
從pyspark.sql。功能導入坳,求和
從pyspark。sql導入窗口
從pyspark。sql導入函數
df = sqlContext。sql (“select * from表”)
df1 = df.withColumn (“NewColumn functions.sum(級).over (Window.partitionBy(“類別”)))
顯示器(df1)
謝謝
Faizan