取消
顯示的結果
而不是尋找
你的意思是:

錯誤使用CDC在三角洲住時表

palzor
新的貢獻者三世

你好,

我試圖使用CDC三角洲生活表,當管道運行第二次時,我得到一個錯誤:

org.apache.spark.sql.streaming。StreamingQueryException:查詢tbl_cdc [id = * * * -xx-xx-bf7e-6cb8b0deb690 runId = * * * xxxx - 4031 - ba74 b4b22be05774]終止與例外:發現一個數據更新(例如- 00000 - eedcf65d - 3 - aa0.snappy.parquet部分)在源表版本2。這是目前不支持。如果你想忽略更新,設置選項“ignoreChanges”到“真正的”。如果你想反映的數據更新,請重啟該查詢以全新的關卡目錄。

5回複5

Hubert_Dudek1
尊敬的貢獻者三世

@Palzor喇嘛,結構化流隻支持附加數據來源。似乎有一個更新、合並,刪除或覆蓋操作來源。

嗨@Palzor喇嘛,請讓我們知道如果這可以幫助,或者我們會為你找到另一個答案。

palzor
新的貢獻者三世

@Hubert杜德克,謝謝你的回答,我們有文件,我們加載和運行管道的新文件,然後我們得到了這個錯誤。所以我認為一個附加而不是一個更新。

ccary
新的貢獻者三世

你可以使用ignoreChanges當你閱讀你的流?代碼將會看起來像

從pyspark.sql進口dlt。功能導入坳,expr @dlt。用戶視圖def():返回(火花。readStream .format(“δ”).option (“ignoreChanges”,“真正的”).table (“cdc_data.users”)) dlt.create_target_table dlt(“目標”)。apply_changes(目標=“目標”,源=“用戶”,鍵=(“標識”),sequence_by =坳(“sequenceNum”), apply_as_deletes = expr(“=“刪除”操作”),except_column_list =[“操作”、“sequenceNum”])

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map