取消
顯示的結果
而不是尋找
你的意思是:

舊的解決方案遷移到新的最優三角洲湖設置

JohanBringsdal
新的因素

嗨磚社區!

我有previsouly從事一個項目,容易與磚可以優化。目前在Azure上運行的突觸,但前提是相同的。

不良描述的場景:

1。數據所有者發送JSON文件的恒流到datalake位置(Gen 2 Blob容器)。發送的文件是由單獨的一個商業記錄之間的50到500 kbs每個文件(非常小)。

2。datalake填充這些文件,他們是在同一進程中分區到分鍾級(所以,年、月、日、小時、分鍾),這是嚴重分區。

3所示。incomining增量加載的文件工作完全好,因為它們是寫在鋪文件(不是δ)在湖上,然後加工成一個SQL表。

4所示。這意味著一個完整的負載目前是不可能的,因為有成千上萬的文件,和成千上萬的目錄遍曆。

所以我的問題是,什麼是最好的辦法擺脫這個舊的解決方案,並進入一個完整lakehouse設置?有一個最佳的方法預處理數以百萬計的小JSON文件一旦負載保持在三角洲的著陸層?

不采取任何建議張開雙手!

謝謝

0回答0
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map