取消
顯示的結果
而不是尋找
你的意思是:

幫助優化大空的差距不運行作業執行人在火花UI。結構化流寫作。

djfliu
新的貢獻者三世

你好,我是運行一個結構化流管道與圖案架構的工作。

在我的銀層,我們從青銅層使用結構化流,閱讀和寫作的流銀層w / foreachbatch函數做一些轉換和合並操作。此外,大約有60三角洲表正在處理這個流程,所以我們利用池和多線程並發地運行這些工作使用16核心的驅動程序在每個工人10 w / 4核。

目前銀層處理需要8分鍾,這比我們預計由於很多表0更新或插入。看著火花ui我注意到一個大的停機時間之間的大部分工作和其他工作。從下麵的截屏,它看起來像司機是做一些工作導致工作需要一個額外的4分鍾。我挖到這最後的工作是處理和什麼是少量的合並操作記錄(< 1000)到三角洲表(~ 16 gb),似乎經受住了那份工作。我們我們所有的銀層三角洲上運行優化+真空表。

希望有人有一些建議優化或可以給一些上下文司機做什麼完全在停機時間。

謝謝

3回複3

Hubert_Dudek1
尊敬的貢獻者三世
  • 它是一個16 gb的文件了?也許可能好分裂成一些分區的意義(磁盤上的分區,所以不是所有需要讀或寫)。
  • 如果你有寫16 gb的數據,請檢查,寫之前重新分區(分區)火花內核的數量(40),這樣每一個核心過程的數據塊,然後檢查40文件相似的大小(以避免數據傾斜)
  • 檢查數據泄漏在火花UI意味著寫作洗牌從RAM和磁盤分區。(25、50和75百分位應該是類似的)。增加洗牌分區如果他們必須經常寫到磁盤上。

djfliu
新的貢獻者三世

啊對不起,休伯特,重讀我的帖子後,我可以看到我因為一些混淆的地方。我更新了我的描述,以更好地反映問題。

基本上,這個工作不是處理16 gb的數據,它隻是合並數據(使用達美航空合並操作)到三角洲表16 gb大小的分區在~ 200文件。

被合並的數據非常小(~ 500 - 1000記錄)。

Vidula_Khanna
主持人
主持人

嗨@Danny劉

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map