數據保險庫

免費試著磚

數據保險庫是什麼?

一個數據保險庫是一個數據建模設計模式用於構建一個企業級數據倉庫分析。數據保險庫有三種類型的實體:中心,鏈接,衛星。

中心代表了核心業務的概念,鏈接代表中心之間的關係,衛星存儲的信息中心和它們之間的關係。

數據保險庫是一個數據模型,采用適合組織lakehouse範式

圖表說明數據庫之間的關係中心,鏈接和衛星。

數據保險庫建模:中心、鏈接和衛星

  • 中心——每個中心代表一個核心業務的概念,比如他們代表客戶Id /產品編號/車輛識別號碼(VIN)。用戶將使用一個業務關鍵信息中心。業務關鍵可能的組合業務概念ID和序列ID,裝載日期,和其他元數據信息。
  • 鏈接——鏈接代表中心實體之間的關係。
  • 衛星——衛星填補這一缺口回答失蹤的核心業務概念的描述性信息。衛星屬於中心存儲信息和它們之間的關係。

一些額外的東西要記住:

  • 衛星不能直接連接到另一個衛星。
  • 一個中心或鏈接可能有一個或多個衛星。

數據保險庫的好處

  • 敏捷
  • 結構化、重構的靈活性
  • 極可伸縮,PBs卷
  • 使用模式,支持ETL代碼生成
  • 熟悉的體係結構:數據層、ETL、明星模式

數據金庫是基於敏捷開發方法和技術,這意味著他們可以適應快速變化的業務需求。之一,使用數據庫方法的主要優點是,ETL作業模型改變時需要更少的重構。

由lakehouse層建模技術

記住這些概念,讓我們探索數據庫如何適應青銅、白銀和黃金數據層,數據從原始到一個精致的狀態是分析做好準備。在這個種架構,原始數據被存儲在一個銅層與最低轉換和數據結構接近源係統。數據保險庫方法可以應用於銀層數據轉化為中心,鏈接和衛星。

金層,可以建立多個數據集市和數據倉庫按照維度建模/金博方法。正如前麵所討論的,報告和使用更多標準化的黃金層是用更少的連接和讀取最優化的數據模型。有時表在金層可以完全規範化,通常如果數據科學家想要這種方式喂養工程算法功能。

如果使用數據保險庫模型簡化並在銀層明顯地減少所需的更改執行ETL數據集市和數據倉庫,中心使密鑰管理(代理鍵/自然鍵)變得更加容易。衛星使裝載尺寸更容易,因為他們擁有所有的屬性,和鏈接使裝載事實表非常簡單,因為他們擁有所有的關係。

資源

    回到術語表
    Glossary-Overview-Sidebar

    了解驅動Lakehouse模式。

    現在注冊
    Baidu
    map