大家好,
我用DLT(δ生活表)和我實現的一些變化數據捕獲用於重複數據刪除。現在我創建一個下遊表讀取DLT作為流(dlt.read_stream(“<表>”))。
我一直收到這個錯誤:
>檢測數據更新(例如部分- 00000 - 6723832 - a - b8ca - 4表達a20 b576 - d69bd5e42652 c000.snappy.parquet)在源表版本11。這是目前不支持。如果你想忽略更新,設置選項“ignoreChanges”到“真正的”。如果你想反映的數據更新,請重啟該查詢以全新的關卡目錄。
我試過這些選項激活配置:
@dlt。視圖(name = " _wp_strategies_dup "評論=“此表包含測試策略表”,spark_conf = {“ignoreChanges”: "真正的"})
spark.readStream.option (“ignoreChanges”,“真正的”).table (“LIVE.wp_parameters”)
dlt.option (“ignoreChanges”,“真正的”).read_stream (“wp_parameters”)
到目前為止沒有任何工作。是因為與DLT這個配置是不可能的?或者是因為有另一種方式設置此配置?
嗨@Adrian羅文斯坦文章下麵詳細解釋了一些想法如何解決這個問題。請讓我們知道這有幫助。
此外,本文描述了如何更新表在三角洲住表管道基於源數據的變化。學習如何記錄和查詢為三角洲表行級變化信息,明白了使用三角洲湖變化數據以磚。
您可以使用變化數據捕獲(CDC)三角洲生活表更新表根據源數據的變化。CDC在三角洲地區的生活表支持SQL和Python接口。三角洲生活與緩慢變化維度表支持更新表(SCD) 1型和2型: