可靠性數據lakehouse

的架構原則可靠性支柱地址的能力係統從故障中恢複過來,繼續函數。

可靠性lakehouse磚的架構圖。

可靠性原則

  1. 設計為失敗

    在一個高度分布式環境中,會發生中斷。平台和各種工作負載,如流媒Beplay体育安卓版本體工作,批作業,模型訓練和BI查詢失敗必須預期和彈性的解決方案必須開發增加可靠性。重點是設計應用程序恢複迅速,在最好的情況下自動進行。

  2. 數據質量管理

    數據質量是派生的基礎數據準確和有意義的見解。數據質量有很多維度,包括完整性、準確性、有效性和一致性。必須積極設法提高最終的數據集的質量,這樣的數據是可靠和值得信賴的信息業務用戶。

  3. 設計自動定量

    標準ETL流程、業務報告和儀表板往往可預測資源需求的內存和計算。然而,新項目,季節性的任務,或模型等先進方法訓練(預測,生產和維護)創建的資源需求峰值。對於一個組織來處理所有這些工作負載,它需要一個可伸縮的存儲和計算平台。Beplay体育安卓版本根據需要添加新的資源必須是容易的,隻有實際消費應該收費。一旦超過峰值,可以釋放資源和成本相應降低。這是通常被稱為水平擴展(節點數)和垂直擴展(節點)的大小。

  4. 測試恢複過程

    企業級災難恢複策略對於大多數應用程序和係統需要一個評估優先級、功能,限製,和成本。一個可靠的災難恢複方法定期測試工作負載如何失敗,驗證恢複過程。自動化可以用來模擬不同的故障或重現場景導致失敗在過去。

  5. 自動化部署和工作負載

    自動化部署和工作負載lakehouse幫助這些流程標準化,消除人為錯誤,提高效率,並提供更大的可重複性。這包括使用“配置代碼”來避免配置漂移,和“基礎設施代碼”自動化所需的所有配置lakehouse和雲服務。

  6. 設置監控、報警和日誌記錄

    工作負載在lakehouse通常集成磚平台服務和外部的雲服務,例如數據源或目標。Beplay体育安卓版本成功執行隻能發生如果執行鏈中的每個服務正常運作。事實並非如此時,監控,報警,記錄重要的檢測和跟蹤問題和理解係統行為。

下一個:可靠性的最佳實踐

看到可靠性的最佳實踐