取消
顯示的結果
而不是尋找
你的意思是:

火花SQL輸出多個小文件

Arun_tsr
新的貢獻者三世

我們有多個連接涉及一個大表(約500 gb大小的)。連接的輸出存儲到多個小文件大小800 kb - 1.5 mb。因為這個工作分成多個任務和花很長時間才能完成。我們已經嚐試使用火花調優配置使用廣播加入,改變分區大小,改變馬克斯記錄每個文件等等,但是沒有性能改善的方法和問題也不是固定的。使用合並使工作時,沒有進展。

火花UI指標

2回答2

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨@Arun巴拉吉,你能請提供錯誤信息你收到嗎?

Arun_tsr
新的貢獻者三世

嗨@Debayan穆克吉,我們不接受任何錯誤。但它是寫幾個小文件從而增加了運行時的工作。我們不能減少輸出文件與任何調優配置(我們已經嚐試使用廣播連接,改變分區大小,改變馬克斯•記錄每個文件等。)

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map