解決:Re:磚和DDD -磚- 30676

Dunken · ‎01-27-2022

我們的建築是根據領域驅動設計。數據分布在不同的領域。

我們想要運行的工作負載上的數據,但是我們想避免湖有一個專用的(重複)數據隻是為了磚。相反,我們寧願喜歡直接依賴於我們自己的數據源(通過REST api)為了總是運行在相同的,最新的數據。

有人能告訴我一些資源才能開始?將肯定沒事的我們之間有一個抽象層中使用一個筆記本和我們的後端api如何看起來像…

werners1 · ‎01-27-2022

所以你不想保存數據以外的源係統。

我認為所謂的“Kappa架構”可能是一個健康,一切都是當作一個流。

休伯特已經提到卡夫卡,這是一個很好的構建(還有其他)。和最重要的是您可以使用火花,或者Flink之類的。

還有Apache Nifi Streamsets和…

Kappa架構是很酷,但不是沒有缺點。

也很近數據網格的,提供數據被視為域。這可能是一個適合你的用例。

但是這種方法當然也有它的缺陷(例如治理、巨大的開銷)

Hubert_Dudek1 · ‎01-27-2022

你可以使用urlopen或比讀取json請求和使用spark.json dataframe ()。問題是,在這種情況下你需要處理整個邏輯(在加載數據時,如何處理增量荷載等)。

阿容易的解決方案是使用流媒體,把卡夫卡與數據從您的API(彙合的。io也可以注冊通過Azure)或任何其他流eventHubs和比你最新的數據可以被解讀為卡夫卡流在磚和處理的數據將被保存在您所選擇的目的地。也許你的基礎設施可以部署microservice流從rest api讀取並保存。

Dunken · ‎01-28-2022

謝謝。如果我將使用流媒體我會複製我所有的數據源,不是嗎?這是一些我想避免……也,因為我不知道前期的數據我感興趣我就來存儲所有的數據磚。

werners1 · ‎01-31-2022

如果你真的想避免複製數據(這意味著報告直接在你的源係統),你可以看看轉眼間或Trino Dremio等等。

Kaniz · ‎02-05-2022

嗨@Armin Galliker, @Werner Stinckens的回複回答了你的問題?

如果是,你願意馬克他的回答是最好的嗎?