管理三角洲表的大小

建議,可以幫助您管理三角洲表的大小。

寫的何塞·岡薩雷斯

去年發表在:2022年5月23日

δ表比傳統的表有什麼不同。三角洲表包括ACID事務和時間旅行的特性,這意味著他們維護事務日誌和陳舊的數據文件。這些附加功能需要存儲空間。

在本文中,我們討論的建議可以幫助你管理三角洲表的大小。

使文件係統版本

使文件係統版本時,您保存您的數據的多個變種在同一個存儲桶。文件係統創建版本的數據,而不是刪除項目,增加可用的存儲空間差值表。

使布魯姆過濾器

布隆過濾器指數(AWS|Azure|GCP)是一種空間數據結構,使數據選擇列上跳過,特別是包含任意的文本字段。磚支持文件級的布魯姆過濾器;每個數據文件可以有一個布隆過濾器與之關聯的索引文件。在閱讀文件數據磚之前檢查索引文件和文件是隻讀如果指數表明,文件可能匹配數據過濾器。

布隆過濾器的大小取決於元素數量的組創建了布隆過濾器和所需的假陽性概率(FPP)。FPP越低,每個元素使用的比特數越高和更準確的將是更多的存儲空間為代價的。

回顧你的δlogRetentionDuration政策

日誌文件默認保留30天。這個值是可配置的三角洲。logRetentionDuration財產。你可以設置這個屬性的值ALTER TABLE設置TBLPROPERTIESSQL的方法。天你保留,你消費更多的儲存空間。例如,如果你設置三角洲。logRetentionDuration =“365天”它使日誌文件的365天而不是默認的30天。

真空你的差值表

真空(AWS|Azure|GCP)刪除數據文件,不再在最新狀態的事務日誌表,保留閾值以上。刪除文件根據他們從三角洲被邏輯刪除的事務日誌+保留時間,不是他們修改存儲係統上的時間戳。默認閾值是7天。磚並不會自動觸發真空三角洲上的操作表。您必須手動運行此命令。真空幫助你刪除過時的文件不再需要。

優化你的差值表

優化(AWS|Azure|GCP)命令契約多個三角洲文件到大型單一文件。這可以提高整體的查詢速度和性能的三角洲表幫助你避免許多小文件。默認情況下,優化創建1 gb的文件。