11-08-2022晚上10:30
我們有多個連接涉及一個大表(約500 gb大小的)。連接的輸出存儲到多個小文件大小800 kb - 1.5 mb。因為這個工作分成多個任務和花很長時間才能完成。我們已經嚐試使用火花調優配置使用廣播加入,改變分區大小,改變馬克斯記錄每個文件等等,但是沒有性能改善的方法和問題也不是固定的。使用合並使工作時,沒有進展。
11-08-2022霎時一切都點
嗨@Arun巴拉吉,你能請提供錯誤信息你收到嗎?
11-09-2022上午12:35
嗨@Debayan穆克吉,我們不接受任何錯誤。但它是寫幾個小文件從而增加了運行時的工作。我們不能減少輸出文件與任何調優配置(我們已經嚐試使用廣播連接,改變分區大小,改變馬克斯•記錄每個文件等。)
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。