取消
顯示的結果
而不是尋找
你的意思是:

需要幫助在磚pyspark代碼來計算一個新措施列。

farefin
新的貢獻者二世

的細節要求如下:

我有一個表具有以下結構:

樣本數據所以我必須寫一個代碼pyspark來計算一個新列。

邏輯新列的總和為不同的類別除以總,它應該在百分比乘以100來顯示它。

例如類探索新列應該顯示(23.98 + 50.54 + 84.95)/(總級)。

所以應該為每一行日期和類別。

請幫我在框架代碼。

如果你有任何問題,請讓我知道。

我已經附加在excel示例數據。

我在這段代碼結構。基本上每個類別如何劃分和總額的大小。

進口pyspark

從pyspark。sql進口SparkSession

從pyspark.sql。功能導入坳,求和

從pyspark。sql導入窗口

從pyspark。sql導入函數

df = sqlContext。sql (“select * from表”)

df1 = df.withColumn (“NewColumn functions.sum(級).over (Window.partitionBy(“類別”)))

顯示器(df1)

謝謝

Faizan

2回答2

Soma
價值貢獻

df1 = df.withColumn (“NewColumn functions.sum(級).over (Window.partitionBy(“類別”))

/ functions.sum(“級”).over (Window.partitionBy (functions.lit (" 1 "))))

Vidula_Khanna
主持人
主持人

嗨@Faizan Arefin

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳嗎?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map