所以你不想保存數據以外的源係統。
我認為所謂的“Kappa架構”可能是一個健康,一切都是當作一個流。
休伯特已經提到卡夫卡,這是一個很好的構建(還有其他)。和最重要的是您可以使用火花,或者Flink之類的。
還有Apache Nifi Streamsets和…
Kappa架構是很酷,但不是沒有缺點。
也很近數據網格的,提供數據被視為域。這可能是一個適合你的用例。
但是這種方法當然也有它的缺陷(例如治理、巨大的開銷)
你可以使用urlopen或比讀取json請求和使用spark.json dataframe ()。問題是,在這種情況下你需要處理整個邏輯(在加載數據時,如何處理增量荷載等)。
阿容易的解決方案是使用流媒體,把卡夫卡與數據從您的API(彙合的。io也可以注冊通過Azure)或任何其他流eventHubs和比你最新的數據可以被解讀為卡夫卡流在磚和處理的數據將被保存在您所選擇的目的地。也許你的基礎設施可以部署microservice流從rest api讀取並保存。