我設置一個筆記本攝取數據使用自動加載程序從一個包含超過500 k S3 bucket CSV文件到一個蜂巢表。
最近的行(和輸入文件)表中從約150增加到530,現在每一批需要大約一個小時來完成而不是增長前大約1 - 2分鍾。我試著優化表、啟用自動優化設置spark.sql.shuffle。分區2000集群中,使用高性能節點但它仍然需要很長時間來完成每一批。
還有什麼我可以嚐試提高性能?
謝謝你!
你確定這個問題在三角洲湖合並?
它也可以自動裝卸機本身。
你能檢查這些鏈接嗎?
https://docs.www.eheci.com/ingestion/auto-loader/file-detection-modes.html
https://docs.www.eheci.com/ingestion/auto-loader/production.html