刪除托管Delta Lake表的最佳實踐

了解刪除托管Delta Lake表的最佳實踐。

寫的亞當Pavlacka

最後發布時間:2022年5月10日

無論如何刪除托管表,都將花費大量的時間,這取決於數據大小。Delta Lake托管表以事務日誌的形式包含大量元數據,而且它們可能包含重複的數據文件。如果Delta表已經使用了很長一段時間,那麼它會積累大量的數據。

在Databricks環境中,有兩種方法可以刪除表(AWS|Azure|GCP):

  • 運行刪除表在一個筆記本牢房裏。
  • 點擊刪除在UI中。

盡管可以在不影響工作負載的情況下在後台刪除表,但確保運行總是好的刪除從AWS|Azure|GCP),真空AWS|Azure|GCP),然後在任何表上開始刪除命令。這確保在開始實際的數據刪除之前清除元數據和文件大小。

例如,如果您試圖刪除Delta表事件,在啟動刪除表命令:

  1. 刪除從運行:刪除事件
  2. 運行VACUUM,間隔為0:真空事件保持0小時

這兩個步驟減少了元數據的數量和未提交文件的數量,否則會增加數據刪除時間。