取消
顯示的結果
而不是尋找
你的意思是:

如何優化工作性能

RajeshRK
貢獻者

嗨,團隊,

我們有一個複雜的ETL作業運行6小時的磚。集群具有以下配置:

Minworkers: 16

Maxworkers: 24

工人和司機節點類型:Standard_DS14_v2。(16核心,128 GB的RAM)

我有監控工作進展引發UI的一個小時,和我的觀察如下:

——工作進展,而不是困了很長一段時間。

工作者節點擴大到24 (max_workers配置)

-洗牌(讀/寫)發生在大量的數據。(我跑這個spark.sql.shuffle的工作。4000年分區)

我們期待著工作應在4小時內完成。任何建議,請優化性能的工作嗎?

問候,

拉傑什。

7回複7

Lakshay
尊敬的貢獻者三世
尊敬的貢獻者三世

確定。你也可以嚐試以下建議:

  1. 使用compute-optimized節點類型。目前,您正在使用一個Memory-optimized。
  2. 在spark.sql.shuffle運行工作。分區的汽車

@Lakshay高爾

嗨Lakshay,

需要幾天來測試這一建議。我會努力工作的執行和更新這個線程的新建議。

問候,

拉傑什。

Vidula_Khanna
主持人
主持人

嗨@Rajesh Kannan R

謝謝你的問題!幫助你更好的,請花一些時間來檢查答案,讓我知道它是否最適合您的需要。

請幫助我們選擇最好的解決方案通過點擊“選擇最佳”如果它。

您的反饋將幫助我們確保我們提供最好的服務給你。

謝謝你!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map