取消
顯示的結果
而不是尋找
你的意思是:

磚和DDD

Dunken
新的貢獻者三世

我們的建築是根據領域驅動設計。數據分布在不同的領域。

我們想要運行的工作負載上的數據,但是我們想避免湖有一個專用的(重複)數據隻是為了磚。相反,我們寧願喜歡直接依賴於我們自己的數據源(通過REST api)為了總是運行在相同的,最新的數據。

有人能告訴我一些資源才能開始?將肯定沒事的我們之間有一個抽象層中使用一個筆記本和我們的後端api如何看起來像…

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

所以你不想保存數據以外的源係統。

我認為所謂的“Kappa架構”可能是一個健康,一切都是當作一個流。

休伯特已經提到卡夫卡,這是一個很好的構建(還有其他)。和最重要的是您可以使用火花,或者Flink之類的。

還有Apache Nifi Streamsets和…

Kappa架構是很酷,但不是沒有缺點。

也很近數據網格的,提供數據被視為域。這可能是一個適合你的用例。

但是這種方法當然也有它的缺陷(例如治理、巨大的開銷)

在原帖子查看解決方案

5回複5

Hubert_Dudek1
尊敬的貢獻者三世

你可以使用urlopen或比讀取json請求和使用spark.json dataframe ()。問題是,在這種情況下你需要處理整個邏輯(在加載數據時,如何處理增量荷載等)。

阿容易的解決方案是使用流媒體,把卡夫卡與數據從您的API(彙合的。io也可以注冊通過Azure)或任何其他流eventHubs和比你最新的數據可以被解讀為卡夫卡流在磚和處理的數據將被保存在您所選擇的目的地。也許你的基礎設施可以部署microservice流從rest api讀取並保存。

Dunken
新的貢獻者三世

謝謝。如果我將使用流媒體我會複製我所有的數據源,不是嗎?這是一些我想避免……也,因為我不知道前期的數據我感興趣我就來存儲所有的數據磚。

werners1
尊敬的貢獻者三世

如果你真的想避免複製數據(這意味著報告直接在你的源係統),你可以看看轉眼間或Trino Dremio等等。

Kaniz
社區經理
社區經理

嗨@Armin Galliker, @Werner Stinckens的回複回答了你的問題?

如果是,你願意馬克他的回答是最好的嗎?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map