YipitData利用磚統一編目數據服務規模
這個博客是由阿努普Segu YipitData數據工程聯席主管
YipitData提供每日市場洞察其客戶通過分析超過15 pb的替代數據存儲在其Lakehouse。其數據產品和服務是值得信賴的高級金融機構和企業,由於公司的多個業務單位,利用數據分析與發條精度和效率。公司內部數據平台允許其200 +數據團隊獨立處理成千上萬Beplay体育安卓版本的小型和大型數據集通過2000 +日常ETL管道沒有直接數據工程參與。進一步擴展其數據操作,YipitData利用磚統一的目錄作為metastore服務提供可靠的數據治理控製而增加的價值和利用150 Lakehouse k +表。通過統一目錄,YipitData獲得可見性活躍的和不活躍的數據集,對BI集成的性能改善,打開新的渠道向客戶提供數據。
這篇文章需要你在我們的旅程從使用蜂巢metastore采用統一目錄。我們還將討論的眾多好處以來實施統一目錄作為我們的Lakehouse架構的核心。
為了了解更多,曲調YipitData 2023數據+人工智能峰會上的演講,我們將討論如何組織數據可以充分利用統一目錄通過我們自己的遷移和數據管理平台架構與具體策略,規模,productize Lakehouse數據,並優化成本。Beplay体育安卓版本
使用蜂巢Metastore阻礙了可伸縮性,在數據平台管理,增加了複雜性和有限與客戶有效的數據共享Beplay体育安卓版本
在過去的幾年裏,YipitData已經組織3 x 100 +公司和部門通過大量的數據產品。在這段時間裏,多個團隊和部門形成的獨特的業務需求。有些團隊需要廣泛的數據訪問來完成其目標而其他團隊需要隔離的環境中安全地生產內部分析。工程部一個集中的數據和數據平台,支持過多的商業機會提出了技術挑戰。Beplay体育安卓版本
統一目錄之前,YipitData Lakehouse依賴一個蜂巢metastore基於角色的訪問模型通過其雲提供商來管理數據資產。體係結構是簡單的成立,但隨著公司的擴大,角色管理平台所需的數量增長20 x。Beplay体育安卓版本新員工培訓新團隊和項目成為複雜的基礎設施部署過程,會阻礙產品開發。此外,數據集都是未使用或複製許可障礙,困惑平台用戶和征稅的數據平台。Beplay体育安卓版本metastore中有如此多的表,許多BI工具無法函數由於潛在的元數據操作超時,抑製努力創造豐富、交互式數據經驗為我們的客戶。
此外,我們的許多客戶操作在不同的雲或使用各種數據棧與蜂巢metastore不提供可行的集成。因此,我們的數據團隊必須為不同的客戶環境中重複數據以外的火花,然後進行後處理。這導致增加的存儲成本和性能瓶頸。
數據工程學係YipitData認出了這個架構並不是可行的,尋求將建立一個新的數據治理解決方案:
- 細晶粒,基於對象的訪問控製,準確地代表公司內部業務單位和項目
- 高性能metastore支持成千上萬的表與millisecond-level響應時間
- 搜索功能來識別和利用現有表和數據庫在整個組織
- 健壯的可觀察性和血統信息管理員跟蹤數據流在整個公司
- 可擴展的api來實現未來的數據應用程序的開發
- 向後兼容現有的蜂巢metastore促進一個平滑的遷移路徑
- 靈活地共享數據與更多的客戶在他們喜歡的雲或分析工具
遷移到統一目錄簡化訪問管理,提高了數據的可觀測性,和增強的數據共享
當檢查上麵的建築需要磚的數據平台,統一編目排隊在其功能插入現有Lakehouse設置,同時提供一個細粒度的訪問控製Beplay体育安卓版本的API。開始統一平台的目錄是無痛對於大多數用戶來說,並發查詢蜂巢metastore Lakehouse和統一目錄管理數據。Beplay体育安卓版本隨著時間的推移,團隊充分利用所有數據分析與數據平台統一目錄逐漸減少查詢統一目錄而不是蜂巢metastore背後的場景。Beplay体育安卓版本
自從遷移,團隊操作在數據網格範式與他們的數據庫和管道在統一目錄分配到不同的目錄,使所有權和期望之間的數據資產業務單元內透明磚UI。統一目錄也是分塊數據共享的努力我們可以維持三角洲表的一個副本並將其連接到BI工具,DBSQL,三角洲分享同時。現在我們的客戶可以消耗我們的分析更簡單的方式比以前當我們內部保持對這些經驗數據準備精益,性能,符合開放標準。
完成遷移之後,我們觀察到以下好處:
- 數據訪問提供了大多數新的團隊或項目,而複雜的雲部署需要從數據工程。
- 數據團隊可以發現關鍵屬性數據庫和表的快速通過磚UI和REST API沒有推出火花計算或shoulder-tapping隊友。
- 利用管道更彈性的數據表和列級血統數據,以避免破壞變化,跟蹤他們的源數據問題和刪除未使用的表。
- 通過三角洲共享數據集更容易為客戶消費和BI工具,使用統一目錄獲取表和表的元數據沒有明顯的延遲。
- 精確的查詢審計跟蹤數據資產安全和數據平台管理員可用來驗證整個公司合規政策的執行。Beplay体育安卓版本
簡化數據的可訪問性導致更快的見解和提高運營效率
統一目錄已經改善治理,增加了數據的利用率,使數據訪問外部係統和客戶周到。統一目錄metastore服務是高性能,millisecond-level延遲對於表的元數據,這使得該公司組織超過150000個表和有效分配權限。這使得~ 70%的定製的雲基礎設施資源(角色、桶桶政策)從前麵的RBAC建築過時了。數據工程師現在可以提供數據訪問更容易通過磚UI和REST API,分塊業務部門更快的實現自己的目標。團隊現在發現數據集目錄和統一視圖中自動生成的譜係圖,導致複製表的合並和刪除未使用的表/表列。這個數據湖清理使用血統數據和審計日誌目錄幫助我們識別活動數據和統一我們的雲存儲成本降低25%。
此外,我們已經實現了重要的我們的SQL數據倉庫費用減少45%。實現統一目錄之前,我們的組織維護單獨的SQL為每個團隊倉庫,導致相當大的低效和不必要的支出。問題源於這樣一個事實,不是每個團隊將利用他們的指定集群,導致閑置的計算資源。然而,統一目錄優化我們的方法通過引入集群超越邊界的權限。這允許我們整合集群和SQL倉庫,同時允許多個團隊有效地利用共享資源。此外,YipitData數據產品現在可以通過交互式分析由BI工具以及三角洲分享,幫助客戶獲得更多的價值從我們沒有花費大量的時間在數據訪問和攝入瓶頸。
YipitData數據工程部很高興繼續投資於與統一的數據平台目錄作為metastore和訪問管理服務,定位成功的公司,因為它擴大分析產品。Beplay体育安卓版本
更新:現在你可以看我們的演示數據和人工智能2023年峰會,我們分享更多關於我們的旅程采取統一目錄,最佳實踐,提前為我們的數據平台和Lakehouse架構。Beplay体育安卓版本