取消
顯示的結果
而不是尋找
你的意思是:

π數據合並操作變慢。我怎麼調試?

sajith_appukutt
尊敬的貢獻者二世

我們有一個結構化流工作配置為讀取event-hub並持續到三角洲通過合並在一個原始/銅層foreachBatch,然而最近,合並進程長時間。如何優化這個管道?

1接受解決方案

接受的解決方案

sajith_appukutt
尊敬的貢獻者二世

三角洲湖在兩個步驟完成合並

  1. 執行一個內連接源表和目標表之間選擇所有文件匹配。
  2. 執行一個外連接所選文件之間在目標和源表和寫出更新/刪除/插入數據。

如果發現三角洲湖的文件需要重寫正在太久,試題:

添加更多謂詞來縮小搜索空間。

  • 調整洗牌分區。
  • 調整播放加入閾值。
  • 調整文件(平衡太多小文件和一些大文件)

如果重寫實際文件本身是太長,試一試:

  • 調整/ AQE洗牌分區
  • 啟用優化寫道
  • 調整播放閾值。

在原帖子查看解決方案

1回複1

sajith_appukutt
尊敬的貢獻者二世

三角洲湖在兩個步驟完成合並

  1. 執行一個內連接源表和目標表之間選擇所有文件匹配。
  2. 執行一個外連接所選文件之間在目標和源表和寫出更新/刪除/插入數據。

如果發現三角洲湖的文件需要重寫正在太久,試題:

添加更多謂詞來縮小搜索空間。

  • 調整洗牌分區。
  • 調整播放加入閾值。
  • 調整文件(平衡太多小文件和一些大文件)

如果重寫實際文件本身是太長,試一試:

  • 調整/ AQE洗牌分區
  • 啟用優化寫道
  • 調整播放閾值。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map