獎章lakehouse架構是什麼?

圖案架構描述了一係列數據層,表示數據存儲在lakehouse的質量。磚建議采取多層次的方法構建一個企業數據的事實來源的產品。這種架構保證原子性、一致性、隔離性和持久性數據經過多層次的驗證和轉換之前存儲在一個布局優化的有效分析。條款青銅(生),(驗證)黃金(豐富)描述的質量數據在每一個層。

重要的是要注意,這個圖案架構不能替代其他維度建模技術。模式和表內每一層都可以采取多種形式和程度的正常化取決於數據更新的頻率和性質和下遊用例數據。

組織可以利用磚Lakehouse創建和維護整個公司驗證數據集訪問。采用一個組織的心態關注策劃成功的一個關鍵步驟data-as-products lakehouse構建一個數據。

攝取到青銅層原始數據

銅層包含多組數據。數據攝取青銅層通常:

  • 保持原始狀態的數據源。

  • 隨著時間的推移逐步追加和生長。

  • 可以任意組合的流和批處理事務。

保留完整的、未經加工的曆史中每個數據集的一種有效的存儲格式能夠重現任何給定的數據係統的狀態。

額外的元數據(如源文件名稱或記錄時間數據處理)可能被添加到數據攝取增強的可發現性,描述狀態的源數據集,在下遊應用程序和優化性能。

驗證和數據在銀層刪除處理

回想一下,而銅層包含整個曆史數據接近原始狀態,銀層代表一個驗證,豐富的數據版本可以為下遊分析是可信的。

而磚堅信lakehouse願景由青銅、白銀,銀和黃金表,隻需實現一個層有效地將立即解鎖的許多lakehouse的潛在好處。

對於任何數據管道,銀層可能包含多個表。

動力分析與金層

這個黃金數據往往是高度精煉和聚合,包含數據,分析、機器學習、和生產應用。而所有表lakehouse應該成為一個重要的目的,黃金表代表數據轉化為知識,而不是信息。

分析師主要依靠黃金為其核心職責表,和數據共享與客戶很少會被存儲在這個水平。

更新這些表完成作為定期生產工作負載的一部分,這有助於控製成本,並允許服務水平協議(sla)的數據新鮮度。

雖然lakehouse沒有相同的死鎖問題,您可能會遇到在數據倉庫中,黃金表通常存儲在一個單獨的存儲容器來幫助避免雲數據請求限製。

一般來說,因為聚合、連接和過濾處理數據寫入黃金層之前,用戶應該看到黃金低延遲數據的查詢性能表。