數據倉庫建模技術及其在磚Lakehouse平台上實現Beplay体育安卓版本
2022年6月24日 在Beplay体育安卓版本平台的博客
lakehouse是一種新的數據平台模式相結合的最好特性Beplay体育安卓版本數據湖泊和數據倉庫。它被設計為一個大型企業級數據平台,可以容納許多用例和數據產品。Beplay体育安卓版本它可以作為一個統一的企業你所有的數據存儲庫:
- 數據域,
- 實時流的用例,
- 數據集市,
- 不同的數據倉庫,
- 數據科學特性存儲和數據科學沙箱,
- 部門的自助分析沙箱。
考慮到不同的用例數據組織原則和建模技術lakehouse可能適用於不同的項目。技術上,磚Lakehouse平台Beplay体育安卓版本可以支持很多不同的數據建模風格。在本文中,我們的目標是解釋青銅/銀/金數據的實現lakehouse的組織原則和不同的數據建模技術如何在每一層。
數據保險庫是什麼?
一個數據保險庫是一個最近的數據建模設計模式用於構建企業級的數據倉庫分析相比,金博和Inmon方法。
數據金庫組織數據分為三種不同類型:中心,鏈接,衛星。中心表示核心業務實體、鏈接代表中心之間的關係,和衛星中心或鏈接存儲屬性。
數據保險庫集中在可伸縮性、敏捷的數據倉庫開發數據集成/ ETL和發展速度是很重要的。大多數客戶beplay体育app下载地址有一個著陸區,拱頂區域和數據集市區域對應於磚組織範式的青銅、金銀層。數據保險庫的建模風格的中心,鏈接和衛星表通常適合在銀層的磚Lakehouse。
了解更多關於數據保險庫的建模數據保險庫聯盟。
維度建模是什麼?
數據倉庫維度建模是一種自底向上的方法來設計以優化分析。多維模型應該是用來正規化業務數據維(如時間和產品)事實(交易金額和數量等),不同的主題領域是通過符合維導航到連接不同的事實表。
最常見的維度建模是星型模式。星型模式是一個多維數據模型用來組織數據,這樣很容易理解和分析,很容易和直觀的運行報告。Kimball-style星型模式或維度模型非常的黃金標準的表示層數據倉庫和數據集市,甚至語義層和報告。星型模式設計是優化查詢大型數據集。
歸一化數據金庫(write-optimized)和非規範化維度模型(讀取最優化)數據建模風格在磚Lakehouse。數據保險庫的中心和衛星在銀層用於負載星型模式的維度,和數據保險庫的鏈接表成為關鍵驅動表加載事實表的維度模型。了解更多的維度建模金伯爾集團。
Lakehouse每一層的數據組織原則
現代lakehouse是一個包羅萬象的企業級數據平台。Beplay体育安卓版本高度可伸縮的、高性能等各種不同的用例ETL、BI,科學和流媒體數據,可能需要不同的數據建模方法。讓我們來看看一個典型lakehouse組織:
銅層——著陸區
銅層是我們土地的所有數據從源係統。這一層的表結構對應於源係統表結構“按原樣”,除了可以添加可選的元數據列捕捉裝載日期/時間,進程ID,等等。在這一層焦點是變化數據捕獲(CDC),並且能夠提供一個源數據(冷藏)的曆史檔案,數據沿襲,如果需要審核,再加工——沒有重讀數據從源係統。
在大多數情況下,這是一個好主意,以保持數據的青銅層三角洲的格式,以便後續讀取ETL銅層的性能,所以你可以更新青銅寫疾病預防控製中心的變化。有時,當數據到達JSON或XML格式,我們確實看到客戶降落在原始數據格式,然後通過改變階段三角洲格式。beplay体育app下载地址所以有時候,我們看到客戶清單邏輯青銅層物理beplay体育app下载地址著陸和暫存區。
存儲原始數據的原始數據格式與一致性在著陸區也有助於你攝取數據通過攝入的工具不支持三角洲本地水槽或直接在源係統將數據存儲到對象存儲。這種模式也非常符合自動裝卸機攝取框架中土地來源中的數據為原始文件,然後著陸區磚自動裝卸機在三角洲分段層格式轉換數據。
銀層——企業中央存儲庫
銀層Lakehouse,青銅層相匹配的數據,合並,符合和清潔(“足夠的”),這樣銀層可以提供一個“企業視圖”的關鍵業務實體、概念和事務。這類似於一個企業運營數據存儲(ODS)或一個中央存儲庫或數據域的數據網格壓縮成(如主客戶、產品、交易和交叉引用表)。beplay体育app下载地址這個企業視圖一起把來自不同數據源的數據,並支持自助服務專門報告分析,先進的分析和毫升。它也作為來源部門分析師、工程師和數據科學家進一步創建項目和數據分析來回答業務問題通過企業、部門數據項目在金層。
Lakehouse數據工程範例,通常(Extract-Load-Transform)英語教學法與傳統提取-轉換-裝載(ETL)。英語教學方法意味著隻有極少或“足夠”的轉換和數據清理規則應用在加載銀層。所有的“企業級”規則應用在銀層與具體項目的轉換規則,金層中的應用。速度和敏捷性在Lakehouse攝取和交付數據優先。
從數據建模的角度來看,銀層3 rd-normal形式像數據模型。數據的拱頂write-performant數據架構和數據模型可以用於這一層。如果使用一個數據庫方法,原始數據保險庫和業務庫適合邏輯銀層的湖——時間點(坑)陳述觀點或物化視圖將在金層。
金層,表示層
金層,可以建立多個數據集市和數據倉庫按照維度建模/金博方法。正如前麵所討論的,報告和使用更多的非規範化的黃金層是用更少的連接和讀取最優化的數據模型相比,銀層。有時表在金層可以完全規範化,通常如果數據科學家想要這種方式喂養工程算法功能。
ETL和數據質量規則,具體項目“應用轉換數據時從銀層金層。最後表示層如數據倉庫、數據集市和數據產品客戶分析、產品/質量分析、庫存分析、客戶細分、產品推薦、營銷/銷售分析等都在這一層。金伯爾風格星形架構基礎數據模型或Inmon風格數據集市Lakehouse適合這個金層。數據科學實驗室和部門沙箱自助分析也屬於金層。
Lakehouse數據組織範式
總而言之,通過不同層數據傳輸的策劃Lakehouse。
- 的銅層使用源係統的數據模型。如果數據落在原始格式,轉換為DeltaLake格式在這一層。
- 的銀層第一次一起把來自不同數據源的數據,符合它創建一個企業的數據視圖,通常使用一個更規範化,write-optimized數據模型通常是3 rd-normal表或數據的拱頂。
- 的金層表示層與非規範化或扁平的數據模型比銀層,通常使用Kimball-style維模型或明星模式。金層還房屋部門和數據科學沙箱實現自助服務分析和數據科學在整個企業。提供這些沙箱和自己的獨立計算集群阻止業務團隊創建自己的Lakehouse之外的數據的副本。
這種Lakehouse數據組織的方法是將數據分解,將團隊聯係在一起,並讓他們做ETL,流媒體,BI和AI與適當的治理一個平台。Beplay体育安卓版本中央數據團隊應該在組織創新的推動者,加速新的自助服務用戶的新員工培訓,以及許多並行數據項目的開發,而不是數據建模過程成為瓶頸。的磚統一的目錄提供搜索和發現、治理和血統Lakehouse確保良好的數據治理節奏。