Re:如何處理100 +表ETL通過火花聖……-磚- 11011

往 · ‎08-06-2022

我寫一個流媒體工作將執行ETL超過130表。我想知道有沒有其他更好的辦法。我在想另一個解決方案是為所有表編寫單獨的流媒體工作。

通過事件源數據來自美國疾病控製與預防中心樞紐在真正的時間。

artsheiko · ‎08-07-2022

嗨,我想回答你的問題可能是有助於獲得更多的細節你想實現什麼,你現在遇到的瓶頸。

的確130表的處理在一個龐然大物可以挑戰的業務規則可能會改變將來,有一天處理的頻率也會不同(例如,您將了解一些信息可以以批處理模式處理)。

它也將是有用的考慮這個問題從團隊的角度:在處理同一個流工作的情況下,最有可能在未來,你將無法發布任務開發/支持這種同時處理幾個團隊成員之間。

往 · ‎08-10-2022

嗨@Artem Sheiko,

謝謝你的詳細回複,我能理解你指的是什麼,但沒有要求在批量處理數據,還隻是一個副本的原始事務數據庫,我們不改變任何的轉換需要將數據複製到三角洲湖。

考慮一個小團隊,我們真的需要分開許多小單表流數據流?這將如何影響係統性能,按我的理解與流我們開始大然後逐步分解到小溪流如果需要嗎?

如果你可以參考我一些文檔,這將非常有用。

謝謝

磚