刪除托管Delta Lake表的最佳實踐

了解刪除托管Delta Lake表的最佳實踐。

寫的亞當Pavlacka

最近一次發布時間:2022年5月10日

無論如何刪除托管表,都會花費大量時間,具體取決於數據大小。Delta Lake管理的表以事務日誌的形式包含大量元數據,它們可能包含重複的數據文件。如果Delta表已經使用了很長時間,那麼它會積累非常大量的數據。

在Databricks環境中,有兩種刪除表的方法(AWS|Azure|GCP):

  • 運行刪除表在一個筆記本單元裏。
  • 點擊刪除在UI中。

盡管您可以在不影響工作負載的情況下在後台刪除表,但確保運行總是好的刪除從AWS|Azure|GCP),真空AWS|Azure|GCP),然後在任何表上啟動刪除命令。這可以確保在開始實際的數據刪除之前清除元數據和文件大小。

例如,如果您試圖刪除Delta表事件,在啟動前請運行以下命令刪除表命令:

  1. 刪除從運行:刪除事件
  2. 以0為間隔運行VACUUM命令:真空事件保持0小時

這兩個步驟減少了元數據和未提交文件的數量,否則會增加數據刪除時間。