03-07-2023淩晨04:30
假設我有一個數據來源攝取一些青銅表,並轉換為銀表。Ans接下來,黃金表是由聚合銀表。
如果新記錄到數據源,銅和銀表更新通過添加新記錄。自黃金表包含聚合值,使用“附加”是沒有意義的。
我想知道哪種方法建議更新黃金表的擁有一個大型數據集:
1)刪除當前黃金表,並重新創建它
2)覆蓋黃金表
第一個選項似乎慢如果我們處理大型數據集。但是,我想知道如果有任何風險選項2(例如,如果表沒有覆蓋正確)。
03-07-202306:18我
@Mohammad軍刀
為什麼不使用合並?甚至CDF +合並做增量。
https://sarnendude.com/delta-lakes-change-data-feed-cdf-demo-in-azure-databricks/
03-07-2023下午01:24
當聚合黃金的價值表,我認為它應該計算使用銀表中的所有記錄。
03-31-202306:10點
嗨@Mohammad軍刀
謝謝你的問題!幫助你更好的,請花一些時間來檢查答案,讓我知道它是否最適合您的需要。
請幫助我們選擇最好的解決方案通過點擊“選擇最佳”如果它。
您的反饋將幫助我們確保我們提供最好的服務給你。謝謝你!
03-31-202347 PM
嗨@Vidula卡納
不符合我的問題的答案。
使用合並的情況下,我發現一篇好文章:
https://medium.com/@avnishjain22 simplify-optimise-and-improve-your-data-pipelines-with-incremental -…
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。