取消
顯示的結果
而不是尋找
你的意思是:

如何優化工作性能

RajeshRK
貢獻者

嗨,團隊,

我們有一個複雜的ETL作業運行6小時的磚。集群具有以下配置:

Minworkers: 16

Maxworkers: 24

工人和司機節點類型:Standard_DS14_v2。(16核心,128 GB的RAM)

我有監控工作進展引發UI的一個小時,和我的觀察如下:

——工作進展,而不是困了很長一段時間。

工作者節點擴大到24 (max_workers配置)

-洗牌(讀/寫)發生在大量的數據。(我跑這個spark.sql.shuffle的工作。4000年分區)

我們期待著工作應在4小時內完成。任何建議,請優化性能的工作嗎?

問候,

拉傑什。

7回複7

Lakshay
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨@Rajesh Kannan R,你能檢查的火花UI火花工作工作是花大部分的時間。同時,尋找任何失敗引發火花UI中工作。

嗨Lakshay,

謝謝你的回複。我注意到的一件事是在職位描述“火花UI”,每個工作下麵的代碼需要平均15分鍾。

“拯救StoreTransform.scala”

不確定這是一個自定義代碼或磚代碼。

問候,

拉傑什。

Lakshay
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨@Rajesh Kannan R,它看起來像一個自定義代碼。你能分享其中一個階段的任務級別的截圖嗎?

嗨Lakshay,

不幸的是,我還沒有捕獲它。我將分享如果我下次運行作業。

問候,

拉傑什。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map