得到錯誤當使用CDC在三角洲住表-磚- 22508

palzor · ‎04-20-2022

你好,

我試圖使用CDC三角洲生活表,當管道運行第二次時,我得到一個錯誤:

org.apache.spark.sql.streaming。StreamingQueryException:查詢tbl_cdc [id = * * * -xx-xx-bf7e-6cb8b0deb690 runId = * * * xxxx - 4031 - ba74 b4b22be05774]終止與例外:發現一個數據更新(例如- 00000 - eedcf65d - 3 - aa0.snappy.parquet部分)在源表版本2。這是目前不支持。如果你想忽略更新,設置選項“ignoreChanges”到“真正的”。如果你想反映的數據更新,請重啟該查詢以全新的關卡目錄。

Hubert_Dudek1 · ‎04-21-2022

@Palzor喇嘛,結構化流隻支持附加數據來源。似乎有一個更新、合並,刪除或覆蓋操作來源。

Kaniz · ‎04-25-2022

嗨@Palzor喇嘛,請讓我們知道如果這可以幫助,或者我們會為你找到另一個答案。

palzor · ‎04-25-2022

@Hubert杜德克,謝謝你的回答,我們有文件,我們加載和運行管道的新文件,然後我們得到了這個錯誤。所以我認為一個附加而不是一個更新。

ccary · ‎05-14-2022

你可以使用ignoreChanges當你閱讀你的流?代碼將會看起來像

從pyspark.sql進口dlt。功能導入坳,expr @dlt。用戶視圖def():返回(火花。readStream .format(“δ”).option (“ignoreChanges”,“真正的”).table (“cdc_data.users”)) dlt.create_target_table dlt(“目標”)。apply_changes(目標=“目標”,源=“用戶”,鍵=(“標識”),sequence_by =坳(“sequenceNum”), apply_as_deletes = expr(“=“刪除”操作”),except_column_list =[“操作”、“sequenceNum”])

磚

錯誤使用CDC在三角洲住時表