取消
顯示的結果
而不是尋找
你的意思是:

三角洲生活表增量批量加載和故障恢複

Valentin1
新的貢獻者三世

你好磚社區,

我工作在一個管道和想實現一個常見的用例使用三角洲生活表。管道應包括以下步驟:

  1. 增量加載數據從表作為一個批處理。
  2. 如果管道曾失敗,包括老批次由於沒有處理失敗。
  3. 對數據執行一些變換或處理。
  4. 將輸出寫入目標表。

這個實現的動機是處理新數據作為火花批,因為火花流不支持許多通常需要聚合。此外,這種方法的目的是處理管道故障可能出現的由於新部署或意想不到的變化數據。這些變化可能會打破或處理數據的轉換,導致停機時間。部署補丁後,管道應該恢複通過加載和處理失敗的批次沒有再計算曆史上的一切。這種恢複機製有助於避免巨大的成本在處理大量數據時。

我尋求指導的最佳實踐實現這個場景中使用的三角洲生活表。特別是,我怎麼能確保管道正確處理之前失敗的批次和流程以及新數據,同時也提供了強勁複蘇機製?

任何幫助或見解將不勝感激!

提前謝謝你!

5回複5

Valentin1
新的貢獻者三世

一些方法是如果你構建自己的檢查點邏輯和數據加載基於自己的updated_at或類似的領域/δ版本和readChangeFeed,盡管後者我沒有考驗。檢查點的邏輯應該添加到dlt通過閱讀的依賴關係限製0,所以如果您需要更好的堅持non-DLT實現這是這是一個黑客。如果我將繼續這條路我將確保提供一些代碼。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map