6 Lakehouse指導原則來構建一個有效的數據
2022年7月14日 在最佳實踐
在這篇文章中,我們將討論一些指導原則,以幫助您構建一個高效和有效的數據lakehouse提供現代數據和人工智能需要實現您的業務目標。如果你不熟悉數據lakehouse,一個新的、開放架構,您可以閱讀更多關於它博客。
在我們開始之前,它有利於定義我們所說的指導原則。指導原則是0級別的規則定義和影響你的架構。他們在一定程度上反映企業的各利益相關者之間的共識,形成未來的數據和艾城的架構決策的基礎。讓我們探索六個指導原則我們建立基於個人的觀察和直接從客戶的見解。beplay体育app下载地址
原則1:牧師數據和提供可信Data-as-Products
規劃數據通過建立分層(種)架構是一個關鍵lakehouse最佳實踐,因為它允許數據團隊結構的數據根據每層質量水平和定義的角色和職責。一個共同的分層方法是:
- 原始層:源數據被吸收進入Lakehouse進入第一層,應該堅持。當創建所有下遊數據從原始層,重建的後續層這一層是可能的,如果需要的話。
- 策劃層:第二層的目的是保持潔淨,精製、過濾和聚合數據。這一層的目標是提供一個良好的、可靠的基礎分析和報告所有的角色和功能。
- 最後一層:第三層創建業務或項目需求;它提供了一個不同的觀點作為數據產品到其他業務單位或項目,準備數據安全需求(如匿名數據)或優化性能(例如視圖)進行聚合。在這一層的數據產品業務被視為真理。
管道在所有層需要確保數據質量約束得到滿足(我。e數據是準確的,完整的、可訪問的和一致的時刻),即使在並發的讀和寫。驗證新數據時發生數據進入策劃層,和下麵的ETL步驟工作要提高這些數據的質量。
重要的是要注意,數據質量需要增加數據通過層和進展,因此,數據的信任將隨後從業務的角度來看。
原則2:刪除數據豎井和減少數據移動
數據移動、複製和重複需要時間,可能減少Lakehouse中數據的質量,尤其是當它會導致數據倉庫。做出明確的數據副本之間的區別和筒倉的數據,一個獨立的或一次性的副本數據並不是有害的。提高敏捷性,有時是必要的實驗和創新。當這些副本操作與下遊業務數據產品依賴他們,他們成為數據倉庫。
為了防止數據倉庫、數據團隊通常試圖建立一種機製或數據管道保持與原有的所有副本同步。因為這可能不會發生,數據質量最終會降低。這最終導致更高的成本和重大損失由用戶的信任。另一方麵,一些業務用例需要數據共享,例如,與合作夥伴或供應商。一個重要方麵是安全可靠地共享最新版本的數據。副本的數據往往是不夠的,因為他們成為例如快速同步。相反,數據應該通過企業數據共享工具共享。
原則3:民主化價值創造通過自助服務體驗
現在,甚至在未來,企業已經成功地搬到一個數據驅動的文化會茁壯成長。這意味著每一個業務單位的決策分析模型或來自分析自己的或集中提供數據。對於消費者來說,數據必須和安全地訪問輕易發現。一個好的概念數據生產者是“數據作為一個產品”;數據將被提供和維護一個業務單位或業務合作夥伴產品和被其他黨派——適當的權限控製。而不是依靠核心團隊和潛在的請求過程緩慢,需要創建這些數據產品,提供、發現和使用自助服務體驗。
然而,它不僅是重要的數據。民主化的數據需要合適的工具,使每個人都生成或使用和理解這些數據。的核心數據Lakehouse現代數據和人工智能平台,提供基礎設施和工具構建數據產Beplay体育安卓版本品沒有重複的努力建立另一個工具堆棧。
原則4:采用組織範圍的數據治理策略
數據治理是一個廣泛的領域,值得單獨的博客。然而,維數據質量、數據目錄和訪問控製發揮重要作用。讓我們深入每一個。
數據質量
最重要的先決條件正確和有意義的報告,分析結果和模型是高質量的數據。質量保證(QA)需要存在在所有管道的步驟。如何執行的例子包括數據合同,滿足sla和保持穩定控製的方式和發展模式。
數據目錄
另一個重要方麵是數據發現:用戶在所有業務領域,特別是在自助服務模式,需要能夠輕易發現相關數據。因此,Lakehouse需要數據目錄覆蓋所有與業務相關的數據。數據目錄的主要目標如下:
- 確保相同的經營理念統一被稱為跨業務並宣布。你可能會認為它是一個語義模型的策劃和最後一層。
- 跟蹤數據沿襲精確,這樣用戶可以解釋這些數據如何到達他們當前的形狀和形式。
- 保持高質量的元數據,它是數據本身一樣重要的正確使用數據。
訪問控製
的價值創造中的數據Lakehouse發生在所有業務領域,Lakehouse需要建立以安全作為一個一流的公民。公司可能有一個更開放的數據訪問政策和嚴格遵循最小特權原則。獨立的數據訪問控製需要在每一層。重要的是實現紋理細密許可計劃從一開始(列和行級的訪問控製,基於角色的或基於屬性的訪問控製)。公司仍然可以開始用更少的嚴格的規則。但隨著Lakehouse平台,所有機製和流Beplay体育安卓版本程轉移到更複雜的安全製度應該已經到位。此外,所有訪問Lakehouse中的數據需要由從一開始審計日誌。
原則5:鼓勵使用開放的接口和開放格式
開放接口的關鍵使互操作性和防止依賴任何單一供應商。傳統上,供應商建立專有技術和關閉接口,有限的企業他們可以存儲的方式,過程和共享數據。
構建在開放接口可以幫助您構建未來:(i)增加數據的壽命和可移植性,這樣您就可以使用它和更多的應用程序更多的用例。(2)打開一個生態係統的伴侶可以迅速利用開放接口將他們的工具集成到Lakehouse平台。Beplay体育安卓版本最後,通過標準化的開放格式數據,總成本將大大降低;一個可以直接訪問數據雲存儲而不需要管它通過專有平台,能夠承擔高出口和計算成本。Beplay体育安卓版本
原則6:建設規模和優化性能和成本
標準ETL流程、業務報告和儀表板通常有一個可預測的資源需要從內存和計算的角度。然而,新項目,季節性任務或現代方法像模型訓練(生產、預測、維修)將生成的資源需求。使業務能夠執行所有這些工作負載,一個可伸縮的平台內存和計算是必要的。Beplay体育安卓版本需要添加新的資源容易對需求,隻有實際的消費應該生成成本。一旦高峰已經過去,又可以釋放資源,成本相應降低。通常,這被稱為水平擴展(更少或更多的節點)和垂直擴展(更大或更小的節點)。
比例還使企業能夠提高查詢的性能通過選擇節點與多個節點進行更多的資源或集群。而是永久提供大型機械和集群的他們隻能供應需求所需的時間來優化成本比率的整體性能。另一個方麵優化存儲和計算資源。由於沒有明確的數據量之間的關係和工作負載使用這些數據(例如隻使用部分數據或做密集計算在小數據),這是一個很好的實踐,解決基礎設施平台,將存儲和計算資源Beplay体育安卓版本
為什麼磚Lakehouse
磚平台是一個本地數據LakehBeplay体育安卓版本ouse平台,建立了從地麵到提供所有必需的功能,使數據團隊有效地提供自助服務的數據產品。它結合了數據倉庫和數據的最好特性湖泊作為一個單一的解決方案對所有主要數據的工作量。支持用例範圍從流BI分析,數據科學和人工智能。磚Lakehouse的目標有三個主要目標:
- 簡單——統一數據,用例分析和人工智能在單一平台Beplay体育安卓版本
- 開放——建立在開源和開放標準
- 多重雲——一個一致的數據在雲平台Beplay体育安卓版本
它使團隊容易合作和帶有集成功能,觸摸你的數據產品的完整生命周期,包括數據攝入、數據處理、數據管理和數據發布/共享。你可以閱讀更多關於磚Lakehouse在這裏。