Re:可憐的自動加載器性能和CSV文件…-磚- 24084

dotan · ‎11-02-2022

我設置一個筆記本攝取數據使用自動加載程序從一個包含超過500 k S3 bucket CSV文件到一個蜂巢表。

最近的行(和輸入文件)表中從約150增加到530,現在每一批需要大約一個小時來完成而不是增長前大約1 - 2分鍾。我試著優化表、啟用自動優化設置spark.sql.shuffle。分區2000集群中,使用高性能節點但它仍然需要很長時間來完成每一批。

還有什麼我可以嚐試提高性能?

謝謝你！

Debayan · ‎11-02-2022

werners1 · ‎11-03-2022

你確定這個問題在三角洲湖合並?

它也可以自動裝卸機本身。

你能檢查這些鏈接嗎?

Kaniz · ‎11-09-2022

嗨@Dotan Schachter,我們一直沒有收到你自從上次反應@Werner Stinckens @Debayan穆克吉,我檢查看看我的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

Vidula_Khanna · ‎01-16-2023

嗨@Dotan Schachter

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

磚