取消
顯示的結果
而不是尋找
你的意思是:

性能問題:創建δ表2 TB鋪形式文件

KuldeepChitraka
新的貢獻者三世

我們試圖創建一個增量表(cta語句)2 TB鋪文件及其花大量的時間大約12小時。

這是正常的。嗎?選擇調整/優化這是什麼?我們做錯了什麼嗎

集群:互動/ 30核心/ 320 GB內存/ 4工人

3回複3

shan_chandra
尊敬的貢獻者二世
尊敬的貢獻者二世

@Kuldeep Chitrakar——請評估(解釋計劃)物理計劃cta查詢在創建表之前。下麵是幾件事可以驗證之前把集群規模。

  1. 驗證連接條件cta查詢中使用。
  2. 將一個簡單的select查詢工作嗎?
  3. 調優spark.sql.shuffle。分區,看看更多數量的任務並行紡減少花費的時間。
  4. 有斜的加入嗎?
  5. AQE配置會有幫助嗎?(https://docs.www.eheci.com/optimizations/aqe.html)

卡米
貢獻者三世

我沒有經驗2 tb的數據集,但我建議你檢查一下:

  1. spark.sql.shuffle。分區(doc例子:鏈接1,鏈接2)
  2. 優化文件大小

你能與我們分享一個屏幕從火花UI cta聲明(火花UI - >選擇cta - > - >階段總結指標和聚合度量)?

你能檢查下鑲花的大小文件創建δ表。?

Hubert_Dudek1
尊敬的貢獻者三世

請使用複製到三角洲(首先創建一個空表)或轉換為三角洲代替cta要快得多,而且過程將自動最優化。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map