無論如何刪除托管表,都將花費大量的時間,這取決於數據大小。Delta Lake托管表以事務日誌的形式包含大量元數據,而且它們可能包含重複的數據文件。如果Delta表已經使用了很長一段時間,那麼它會積累大量的數據。
在Databricks環境中,有兩種方法可以刪除表(AWS|Azure|GCP):
- 運行刪除表在一個筆記本牢房裏。
- 點擊刪除在UI中。
盡管可以在不影響工作負載的情況下在後台刪除表,但確保運行總是好的刪除從(AWS|Azure|GCP),真空(AWS|Azure|GCP),然後在任何表上開始刪除命令。這確保在開始實際的數據刪除之前清除元數據和文件大小。
例如,如果您試圖刪除Delta表事件,在啟動刪除表命令:
- 刪除從運行:刪除事件
- 運行VACUUM,間隔為0:真空事件保持0小時
這兩個步驟減少了元數據的數量和未提交文件的數量,否則會增加數據刪除時間。