03-30-202342我
你好,
我有火花的工作是處理大型數據集,其處理數據的時間太長了。火花UI中,我可以看到它運行1任務9的任務。不知道如何運行這個parellel。我已經提到了自動伸縮功能,提供高達8實例。
附加的形象引發UI。
請建議如何調試和解決性能問題。
03-30-202301:26。我
從你提供的截圖你似乎在做一個merge語句。
根據三角洲的分區表可以並行。
遠東如果你所有傳入的數據駐留在一個大分區,火花必須完全寫這巨大的分區可以花很長時間。
你能分享一些代碼嗎?
03-30-202306:47我
嗨@Sanjay耆那教的你有機會看到有多少可用分區dataframe之前執行合並操作和它們之間的數據如何分布?這將幫助你看如果你有任何數據傾斜。你也可能需要看你在做合並的關鍵檢查扭曲在任何特定的值。
下麵的代碼將幫助你得到每個分區的記錄
從pyspark.sql。功能導入spark_partition_id rawDf。withColumn (“partitionId spark_partition_id ()) .groupBy (partitionId) .count(),告訴()
03-31-202303:07我
我的分區是根據日期,這是分區信息約70 k的記錄。
partitionId | |計數
+ - - - - - - - - - - - - - - - - - - +
14557 | | 0 |
| 1 | 25455 |
| 2 | 20330 |
| 3 | 1776 |
| 4 | 2868 |
| 5 | 1251 |
| 6 | 1145 |
| | 127
03-31-2023上午03:12
很扭曲,然而,這並不能解釋為什麼沒有並行性。
我看到的是,唯一的原因:
——合並隻打一個分區
你申請合並(1)或重新分配(1)
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。