再保險:最佳實踐處理數據複製的…-磚- 2954

成成 · ‎06-16-2023

我建立一個數據管道用δ表活在Azure磚將數據從一個原始數據表的功能表和模型推斷結果表。然而,我擔心潛在的重複問題在未來的操作中,如數據恢複。

我的數據來源是一個關係數據庫,日常批量更新。前一天的數據附加到每個表在數據庫中。因為JDBC數據源不能用作流源,和我們不想使疾病預防控製中心在數據庫中,我建立了一個工作,接受每日新數據表並將其傳遞到登台三角洲增量δ生活表“ignoreChanges”選項設置為True每天創建一係列流表。

然而,有時候我們有壞數據和數據源將會更新一些數據在一段時間(日期)。我計劃一個操作刪除原始數據表中的數據從這些日期和攝取數據從數據庫到staging表。這將更新的數據傳遞給下遊三角洲生活表,所以我還需要刪除所有下遊表的數據從這些日期。由於數據管道將改變隨著時間的推移,處理重複或監控重複使用三角洲住表中的數據質量的定義似乎是必要的。

我一直認為dropDuplicates([“日期”、“User_ID”]),但我不認為這是有用的對於我來說。我還想到其他三個方法來處理:

處理重複DLT表的定義。比如離開加入流數據與整個表本身使用列(“日期”、“User_ID”),並刪除這些數據已經被記錄在流表。然而,更新的數據將被刪除沒有通知和這種方法需要大量的計算能力。另外,我不需要檢查User_ID水平。
定義一個數據質量規則的DLT警告或下降的數據如果有已經存在的數據表中相同的日期。然而,我不知道如何做到這一點的或者如果它是可能的。
創建一個監測表或視圖監控項的數量在每個日期。如果計算雙一些日期,它將通知我們手工操作。

我想知道如果有一個更好的辦法來處理這比第三個方法。

請讓我知道如果我的描述不清楚或如果你有任何問題。

謝謝你花時間讀我的長期問題,和任何建議將不勝感激。

Vidula_Khanna · ‎06-17-2023

嗨@Chengcheng郭

很高興認識你,謝謝你的問題!

看看你的同行在社區中有一個回答你的問題。謝謝。

磚

最佳實踐的處理數據重複三角洲生活與日常批處理數據源表管道。