我建立一個數據管道用δ表活在Azure磚將數據從一個原始數據表的功能表和模型推斷結果表。然而,我擔心潛在的重複問題在未來的操作中,如數據恢複。
我的數據來源是一個關係數據庫,日常批量更新。前一天的數據附加到每個表在數據庫中。因為JDBC數據源不能用作流源,和我們不想使疾病預防控製中心在數據庫中,我建立了一個工作,接受每日新數據表並將其傳遞到登台三角洲增量δ生活表“ignoreChanges”選項設置為True每天創建一係列流表。
然而,有時候我們有壞數據和數據源將會更新一些數據在一段時間(日期)。我計劃一個操作刪除原始數據表中的數據從這些日期和攝取數據從數據庫到staging表。這將更新的數據傳遞給下遊三角洲生活表,所以我還需要刪除所有下遊表的數據從這些日期。由於數據管道將改變隨著時間的推移,處理重複或監控重複使用三角洲住表中的數據質量的定義似乎是必要的。
我一直認為dropDuplicates([“日期”、“User_ID”]),但我不認為這是有用的對於我來說。我還想到其他三個方法來處理:
我想知道如果有一個更好的辦法來處理這比第三個方法。
請讓我知道如果我的描述不清楚或如果你有任何問題。
謝謝你花時間讀我的長期問題,和任何建議將不勝感激。