比較兩個版本的δ表

使用時間旅行來比較兩個版本的δ表。

寫的mathan.pillai

去年發表在:2022年5月10日

三角洲湖支持時間旅行,你可以查詢舊三角洲表的快照。

一個常見的用例是比較兩個版本的三角洲表,以確定哪些改變。

有關時間旅行的更多詳細信息,請查看三角洲湖時間旅行文檔(AWS|Azure|GCP)。

識別所有的差異

您可以使用SQL選擇查詢來確定所有三角洲表的兩個版本之間的差別。

你需要知道的表的名稱和版本號的快照你想比較。

%的sql select * from <表名稱> @v <版本號>除了從<表名稱> select * @v <版本號>

例如,如果你有一個名為“時間表”,你想比較的表與原版本,版本2查詢看起來像這樣:

%的sql select * from schedule@v2除了從schedule@v0 select *

識別文件添加到一個特定的版本

您可以使用Scala的查詢檢索的列表文件添加到一個特定版本的δ表。

% scala顯示器(spark.read.json (“dbfs: / < path-to-delta-table > / _delta_log json / 00000000000000000002.”)。(“添加不空”).select (“add.path”))

在這個例子中,我們得到的所有文件的列表添加到版本2δ表的。

00000000000000000002. json包含版本2中所有文件的列表。

在閱讀完整列表,我們是不包括已經存在的文件,所以顯示的列表隻包含文件添加到版本2。