最佳實踐的互操作性和易用性

本文介紹的最佳實踐互操作性和可用性,組織架構原則在下麵幾節中列出。

1。定義標準的集成

使用外部集成的磚REST API

磚Lakehouse附帶了一個全麵的REST API,讓您輕鬆管理平台編程的幾乎所有方麵。Beplay体育安卓版本REST API服務器運行在控製平麵和提供了一個統一的端點管理磚平台。Beplay体育安卓版本這是首選方法集成數據磚,舉個例子,為CI / CD或MLOps現有工具。shell-based集成的設備,磚CLI封裝了許多REST api的一個命令行界麵。

使用優化的連接器從lakehouse訪問數據源

磚提供了多種方式來幫助你攝取數據到三角洲湖。因此,lakehouse提供優化的許多數據格式和雲服務的連接器。看到與JDBC數據源連接什麼磚?。他們中的許多人已經包含在磚運行時。這些連接器通常為特定的數據源建立和優化。

合作夥伴在合作夥伴連接使用

企業有不同的需求,沒有一個工具可以滿足他們所有人。合作夥伴聯係使您能夠很容易地探索和整合與我們的合作夥伴,涵蓋所有方麵的lakehouse:數據攝入,準備和轉換,BI和可視化,機器學習,數據質量,等等。合作夥伴連接允許您創建試用賬戶選擇磚技術合作夥伴和磚工作區連接到合作夥伴解決方案從磚UI。試著合作夥伴解決方案使用磚Lakehouse數據,然後采用最好的解決方案,滿足您的業務需求。

使用達美住表和自動加載程序

三角洲生活表是一個框架為構建可靠、可維護、可測試的數據處理管道。你定義轉換執行數據,和δ生活表管理任務編排,集群管理、監控、數據質量和錯誤處理。看到δ生活是什麼表?

自動加載程序增量地和有效地流程到達雲存儲新的數據文件。它能可靠地從雲存儲讀取數據文件。兩個三角洲生活的一個重要方麵表和自動加載器是他們聲明性質:沒有它們,必須構建複雜的管道,集成不同的雲服務,如通知服務和排隊服務——基於事件和可靠讀取雲文件允許結合批處理和流的可靠來源。

自動加載器和δ生活表減少係統依賴關係和複雜性和顯著提高不同範式之間的互操作性與雲存儲和批處理和流。作為一個副作用,簡單的管道增加平台的可用性。Beplay体育安卓版本

使用基礎設施代碼部署和維護

HashiCorp起程拓殖是一個流行的開源工具用於創建安全、可預測的跨多個雲提供商的雲基礎設施。看到卓越運營>使用基礎設施代碼部署和維護

2。喜歡開放的接口和開放的數據格式

使用增量數據格式

三角洲湖框架有很多優勢,從可靠性特性的高性能增強,也是一個完全開放的數據格式。看到的:

此外,三角洲湖有一個三角洲獨立庫,它打開了三角洲格式開發項目。這是一個單節點的Java庫,可以讀取和寫入三角洲表。許多第三方工具和應用程序支持三角洲湖。具體地說,這個庫提供了api與表元數據在事務日誌,實現三角洲事務日誌協議實現的事務保證三角洲格式。看到三角洲湖是什麼?

使用MLflow來管理機器學習工作流

MLflow是一個開源平台,毫升的生命周期管理,Beplay体育安卓版本包括實驗,再現性,部署和中央注冊中心模型。使用MLflow磚既提供的優勢:你可以寫毫升工作流使用開放和便攜式工具和使用可靠的服務由磚(跟蹤服務器模型注冊表)。看到MLflow指南。它還增加了企業級,可伸縮模式服務,允許您主機MLflow模型作為REST端點。

3所示。降低貿易壁壘實現的用例

提供自助服務體驗的平台Beplay体育安卓版本

磚Lakehouse平台的所有功能要求提供自助服務Beplay体育安卓版本體驗。可能有一個強製性的審批步驟時,最佳實踐是完全自動化的設置當業務單位請求訪問lakehouse。自動供應他們的新環境,同步用戶和使用SSO身份驗證,提供通用數據訪問控製和單獨的對象存儲自己的數據,等等。中央數據目錄包含語義一致的和便利的數據集,這個快速、安全地提供新業務單位lakehouse能力和他們所需要的數據。

提供預先定義的集群和SQL倉庫為每個用例

如果使用serverless服務是不可能的,刪除的負擔定義集群(VM類型、節點大小和集群大小)從最終用戶。這可以在以下方麵:

  • 為用戶提供立即共享集群環境。在這些集群,使用自動定量一個最小的節點,以避免高閑置成本。

  • 使用集群政策定義t-shirt-sized集群(S, M, L)項目作為一個標準化的工作環境。

4所示。確保數據一致性和可用性

提供可重用data-as-products業務可以信任

生產高品質data-as-product是任何數據平台的主要目的。Beplay体育安卓版本的想法是,數據工程團隊應用產品想策劃數據:數據資產是他們的產品,和數據科學家,毫升和BI工程師,或任何其他客戶消費數據的業務團隊。beplay体育app下载地址這些客戶應該beplay体育app下载地址能夠發現,地址,從這些data-as-products創造價值通過自助服務體驗沒有專門的數據團隊的幹預。

發布數據產品語義一致的整個企業

湖數據通常包含來自不同源的數據係統。這些係統(如有時名字相同的概念不同客戶vs。賬戶由相同的標識符)或者是不同的概念。,可讓業務用戶方便地以一種有意義的方式將這些數據集,數據必須均勻所有來源的語義一致性。此外,對於一些有價值的數據分析、內部業務規則必須應用正確,如收入確認。確保所有用戶都使用正確解讀數據,數據集與這些規則必須提供和發布到統一目錄。訪問源數據必須限於團隊理解正確的用法。

使用聯合編目數據發現和血統的探索

在統一目錄,管理員和數據管理員管理用戶和他們的數據訪問集中在所有工作區在一個磚帳戶。不同工作空間的用戶可以共享相同的數據,根據用戶權限授予集中統一目錄,聯合數據訪問是可能的。看到發現使用數據瀏覽和管理數據

從可用性的角度來看,統一編目提供以下兩個功能:

  • 數據資源管理器的主UI統一目錄功能。您可以使用數據瀏覽視圖模式的細節,預覽樣本數據,見表詳細信息和屬性。管理員可以查看和更改用戶,管理員和數據對象所有者可以授予和撤銷權限。您還可以使用磚搜索,讓用戶找到數據資產(如表、列、視圖、指示板模型,等等)容易和無縫。用戶將顯示結果相關的搜索請求,他們可以訪問。看到_

  • 數據沿襲在所有運行在集群磚或SQL查詢倉庫。血統是支持所有語言和捕獲到列的水平。譜係數據包括筆記本、工作流和儀表板相關查詢。血統可以以接近實時的可視化在數據瀏覽和檢索數據磚REST API。

允許企業用戶提供一個全麵的視圖的所有數據在所有數據平台,統一編目為集成提供了企業數據目錄(有時稱為“目錄的目錄”)。Beplay体育安卓版本