你好磚社區,
我工作在一個管道和想實現一個常見的用例使用三角洲生活表。管道應包括以下步驟:
這個實現的動機是處理新數據作為火花批,因為火花流不支持許多通常需要聚合。此外,這種方法的目的是處理管道故障可能出現的由於新部署或意想不到的變化數據。這些變化可能會打破或處理數據的轉換,導致停機時間。部署補丁後,管道應該恢複通過加載和處理失敗的批次沒有再計算曆史上的一切。這種恢複機製有助於避免巨大的成本在處理大量數據時。
我尋求指導的最佳實踐實現這個場景中使用的三角洲生活表。特別是,我怎麼能確保管道正確處理之前失敗的批次和流程以及新數據,同時也提供了強勁複蘇機製?
任何幫助或見解將不勝感激!
提前謝謝你!