跳轉到主要內容
Beplay体育安卓版本平台的博客

說明性的指導實現數據保險庫模型的磚Lakehouse平台Beplay体育安卓版本

分享這篇文章

有許多不同的數據模型,您可以使用在設計一個分析係統,如特定於行業的領域模型,金博,Inmon,和數據庫的方法。根據您的獨特需求,您可以使用這些不同的建模技術在設計lakehouse。他們都有自己的長處,每個可以適合不同的用例。

最終,無非是一個數據模型構建與一對一的定義不同的表,一對多,多對多關係的定義。數據平台必Beplay体育安卓版本須提供physicalizing數據模型的最佳實踐,以幫助簡化信息檢索和更好的性能。

在前一篇文章中,我們介紹五個簡單的步驟來實現一個星型模式與三角洲湖磚。在本文中,我們旨在解釋數據保險庫是什麼,如何實現它在青銅/銀/金層以及如何獲得最佳性能的數據與磚拱頂Lakehouse平台。Beplay体育安卓版本

數據保險庫建模、定義

數據保險庫建模的目標是適應快節奏變化的業務需求,支持更快更敏捷開發數據倉庫的設計。數據保險庫是適合lakehouse方法由於數據模型是容易擴展和顆粒中心,鏈接和衛星設計,所以設計和ETL的變化很容易實現。

讓我們了解一些數據保險庫的構建塊。一般來說,一個數據金庫模式有三種類型的實體:

  • 中心——中心代表了核心業務實體,比如客戶、產品、訂單等。分析師將使用自然/業務鍵信息中心。beplay体育app下载地址中心的主鍵表通常是派生的業務概念ID,裝載日期,和其他元數據信息。
  • 鏈接——鏈接代表中心實體之間的關係。隻有連接鍵。它就像一個Factless事實表的維度模型。沒有屬性,隻是連接鍵。
  • 衛星——衛星表實體的屬性在中心或鏈接。他們對核心業務實體的描述性信息。他們是相似的歸一化版本的維度表。例如,客戶中心表可以有多個衛星地理屬性,如客戶,客戶信用評分、客戶忠誠度層等。

使用數據庫方法的主要優勢之一是現有ETL作業需要大大減少重構時,數據模型的變化。數據保險庫是一個“write-optimized”建模風格和支持敏捷開發方法,是一個很好的適合數據湖泊和lakehouse方法。

圖表顯示數據保險庫的建模是如何工作的,與中心,鏈接和衛星連接
圖表顯示數據保險庫的建模是如何工作的,與中心,鏈接和衛星連接。

數據保險庫Lakehouse適合

讓我們看看我們的一些客戶正在使用數據保險庫建模在磚Lbeplay体育app下载地址akehouse架構:

數據保險庫架構Lakehouse
數據保險庫架構Lakehouse

考慮實現磚Lakehouse數據保險庫模型

  • 數據保險庫建模建議使用一個散列的業務主鍵鍵。磚支持哈希,md5,開箱即用的功能來支持業務鍵。
  • 數據保險庫層的概念著陸區(有時一個暫存區)。這兩種物質層lakehouse自然銅層的數據。如果著陸區數據到達如Avro、CSV、拚花、XML、JSON格式,轉換為Delta-formatted表在暫存區,以便後續的ETL高性能。
  • 創建原始庫從著陸或暫存區。數據建模為中心,連接和衛星原始數據保險庫中的表。額外的“業務”ETL規則並不是通常應用而加載原始數據。
  • ETL業務規則,數據質量規則,清洗和符合應用生和業務之間的規則庫。可以由業務庫表數據域——作為一個企業標準化的“中央存儲庫”清理數據。數據管家和中小企業的治理、數據質量和業務規則在他們的業務領域。
  • 查詢助手表時間點(坑)和橋梁等表的表示層上創建業務庫。坑表將提高查詢性能,一些衛星和中心預連接,並提供一些與“時間點”過濾條件。橋接表pre-joins中心或實體提供一個平為實體“維表”視圖。三角洲生活表完全物化視圖和可以用來創建時間點表以及橋表黃金/表示層之上的業務數據。
  • 隨著業務流程的變化和調整,數據庫模型可以很容易地擴展沒有大規模重構維度模型。額外的中心(學科)可以很容易地添加到鏈接(純加入表)和額外的衛星(如客戶細分)可以添加到一個中心(客戶)以最小的變化。
  • 黃金也加載一個維度模型的數據倉庫層變得更容易有以下原因:
    • 中心簡化密鑰管理中心(自然鍵可以轉換為代理鍵通過標識列)。
    • 衛星使裝載尺寸更容易因為它們包含的所有屬性。
    • 鏈接使裝載事實表非常簡單,因為它們包含的所有關係。

技巧來獲得最佳性能的數據在磚Lakehouse庫模型

  • 使用三角洲格式化的原始庫表,業務庫和黃金層表。
  • 請確保使用優化和z順序所有連接鍵上的索引的中心,鏈接和衛星。
  • 不要在分區表——尤其是小衛星表。使用布隆過濾器索引日期列,當前標記列和謂詞列,通常是過濾,以確保最佳的性能——特別是如果你需要創建額外的指標除了z值。
  • 三角洲生活表(物化視圖)可以非常輕鬆地創建和管理坑表。
  • 減少optimize.maxFileSize到一個較低的數,如32 - 64 mb和默認的1 GB。通過創建更小的文件,您可以受益於文件修剪和減少I / O檢索需要的數據加入。
  • 數據金庫模式已經相對更多的連接,因此使用最新版本的DBR確保自適應查詢執行在默認情況下,自動使用最佳連接策略。使用加入提示隻有在必要的。(先進的性能調優)。

了解更多關於數據保險庫的建模數據保險庫聯盟

開始在Lakehouse構建數據保險庫

磚免費試用14天

免費試著磚

相關的帖子

看到所有解決方案的帖子
Baidu
map