取消
顯示的結果
而不是尋找
你的意思是:

三角洲如何解決大量小文件的問題?

User16869510359
尊敬的貢獻者

三角洲期間創造了更多的小文件合並和更新操作。

1接受解決方案

接受的解決方案

User16869510359
尊敬的貢獻者

三角洲解決了大量的小文件問題使用以下操作用於三角洲表。

  • 優化寫有助於優化通過添加額外的洗牌寫操作步驟,減少輸出文件的數量。默認情況下,文件大小將訂單的128 mb。這確保了非常小的文件不是在寫。
  • Auto-compaction——有助於緊湊的小文件。雖然優化寫有助於創建更大的文件,有可能寫操作沒有足夠的數據來創建文件的大小128 MB。這通常發生流的工作數據的地方最終micro-batch可以創建更小的文件。Auto-compaction踢在一旦表目錄/表分區目錄有50個小文件。可以修改這些默認配置。觸發Auto-compaction post-commit鉤。
  • 最後但並非最不重要的是本包裝或常規的優化操作。優化命令有助於本包各種文件的數據到一個文件中。默認輸出文件的大小將訂單的1 GB。優化命令以一個可選參數的列的名稱,co-locality可以保證。這是稱為z值。

閱讀更多:

https://docs.www.eheci.com/delta/optimizations/auto-optimize.html

https://docs.www.eheci.com/spark/latest/spark-sql/language-manual/delta-optimize.html

在原帖子查看解決方案

1回複1

User16869510359
尊敬的貢獻者

三角洲解決了大量的小文件問題使用以下操作用於三角洲表。

  • 優化寫有助於優化通過添加額外的洗牌寫操作步驟,減少輸出文件的數量。默認情況下,文件大小將訂單的128 mb。這確保了非常小的文件不是在寫。
  • Auto-compaction——有助於緊湊的小文件。雖然優化寫有助於創建更大的文件,有可能寫操作沒有足夠的數據來創建文件的大小128 MB。這通常發生流的工作數據的地方最終micro-batch可以創建更小的文件。Auto-compaction踢在一旦表目錄/表分區目錄有50個小文件。可以修改這些默認配置。觸發Auto-compaction post-commit鉤。
  • 最後但並非最不重要的是本包裝或常規的優化操作。優化命令有助於本包各種文件的數據到一個文件中。默認輸出文件的大小將訂單的1 GB。優化命令以一個可選參數的列的名稱,co-locality可以保證。這是稱為z值。

閱讀更多:

https://docs.www.eheci.com/delta/optimizations/auto-optimize.html

https://docs.www.eheci.com/spark/latest/spark-sql/language-manual/delta-optimize.html

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map