舊的解決方案遷移到新的最優三角洲湖年代…-磚- 35862

JohanBringsdal · ‎06-28-2023

嗨磚社區!

我有previsouly從事一個項目,容易與磚可以優化。目前在Azure上運行的突觸,但前提是相同的。

不良描述的場景:

1。數據所有者發送JSON文件的恒流到datalake位置(Gen 2 Blob容器)。發送的文件是由單獨的一個商業記錄之間的50到500 kbs每個文件(非常小)。

2。datalake填充這些文件,他們是在同一進程中分區到分鍾級(所以,年、月、日、小時、分鍾),這是嚴重分區。

3所示。incomining增量加載的文件工作完全好,因為它們是寫在鋪文件(不是δ)在湖上,然後加工成一個SQL表。

4所示。這意味著一個完整的負載目前是不可能的,因為有成千上萬的文件,和成千上萬的目錄遍曆。

所以我的問題是,什麼是最好的辦法擺脫這個舊的解決方案,並進入一個完整lakehouse設置?有一個最佳的方法預處理數以百萬計的小JSON文件一旦負載保持在三角洲的著陸層?

不采取任何建議張開雙手!

謝謝

磚