無論如何刪除托管表,都會花費大量時間,具體取決於數據大小。Delta Lake管理的表以事務日誌的形式包含大量元數據,它們可能包含重複的數據文件。如果Delta表已經使用了很長時間,那麼它會積累非常大量的數據。
在Databricks環境中,有兩種刪除表的方法(AWS|Azure|GCP):
- 運行刪除表在一個筆記本單元裏。
- 點擊刪除在UI中。
盡管您可以在不影響工作負載的情況下在後台刪除表,但確保運行總是好的刪除從(AWS|Azure|GCP),真空(AWS|Azure|GCP),然後在任何表上啟動刪除命令。這可以確保在開始實際的數據刪除之前清除元數據和文件大小。
例如,如果您試圖刪除Delta表事件,在啟動前請運行以下命令刪除表命令:
- 刪除從運行:刪除事件
- 以0為間隔運行VACUUM命令:真空事件保持0小時
這兩個步驟減少了元數據和未提交文件的數量,否則會增加數據刪除時間。