真空(Databricks SQL)
從表目錄中刪除未使用的文件。
筆記
此命令的工作方式不同,具體取決於您是在三角洲還是Apache Spark Tape上工作。
真空桌(Databricks上的三角洲湖)真空
與三角洲表相關的遞歸真空目錄。真空
從表目錄中刪除未由Delta管理的所有文件,以及不再處於表的最新交易狀態且比保留閾值更古老的數據文件。真空
會跳過以一個以_
,其中包括_delta_log
(將表在一列上劃分,以_
是該規則的例外;真空
掃描目標增量表中包含的所有有效分區)。Delta表數據文件是根據從Delta的交易日誌 +保留時間刪除的時間刪除的,而不是其在存儲係統上的修改時間戳。默認閾值是7天。
在三角洲表上才不是自動觸發真空
操作。看刪除三角表不再引用的文件。
如果您運行真空
在三角洲的桌子上,您失去了能力時間旅行回到比指定數據保留期更古老的版本。
警告
建議您將保留間隔設置為至少7天,因為舊的快照和未投入的文件仍然可以由桌子上的讀者或作家使用。如果真空
清理活動文件,並發讀者可能會失敗,或者更糟糕的是,當表可能會損壞表真空
刪除尚未投入的文件。您必須選擇一個比運行最長的並發事務的時間間隔,並且任何流都可以落後於表的最新更新的最長時間。
真空table_name[[保持num小時這是給予的[[幹燥跑這是給予的
參數
標識現有的三角洲表。該名稱不得包括一個時間規範。
保留數小時
保留閾值。
幹式運行
返回要刪除的文件列表。
吸塵器一張火花桌(Apache Spark)
遞歸與火花表關聯的真空目錄,並刪除比保留閾值更古老的文件。默認閾值是7天。
在火花表上,數據映射會自動觸發真空
編寫數據的操作。看清理未投入的文件。