再保險:如何優化工作性能-磚- 7553

RajeshRK · ‎03-17-2023

嗨,團隊,

我們有一個複雜的ETL作業運行6小時的磚。集群具有以下配置:

Minworkers: 16

Maxworkers: 24

工人和司機節點類型:Standard_DS14_v2。(16核心,128 GB的RAM)

我有監控工作進展引發UI的一個小時,和我的觀察如下:

——工作進展,而不是困了很長一段時間。

工作者節點擴大到24 (max_workers配置)

-洗牌(讀/寫)發生在大量的數據。(我跑這個spark.sql.shuffle的工作。4000年分區)

我們期待著工作應在4小時內完成。任何建議,請優化性能的工作嗎?

問候,

拉傑什。

Lakshay · ‎03-17-2023

嗨@Rajesh Kannan R,你能檢查的火花UI火花工作工作是花大部分的時間。同時,尋找任何失敗引發火花UI中工作。

RajeshRK · ‎03-17-2023

嗨Lakshay,

謝謝你的回複。我注意到的一件事是在職位描述“火花UI”,每個工作下麵的代碼需要平均15分鍾。

“拯救StoreTransform.scala”

不確定這是一個自定義代碼或磚代碼。

問候,

拉傑什。

Lakshay · ‎03-17-2023

嗨@Rajesh Kannan R,它看起來像一個自定義代碼。你能分享其中一個階段的任務級別的截圖嗎?

RajeshRK · ‎03-17-2023

嗨Lakshay,

不幸的是,我還沒有捕獲它。我將分享如果我下次運行作業。

問候,

拉傑什。