卓越運營的最佳實踐

本文介紹了最佳實踐卓越運營,組織架構原則在下麵幾節中列出。

1。優化構建和發布過程

創建一個專用lakehouse平台的運營團隊Beplay体育安卓版本

是一般的最佳實踐平台運營團隊,使團隊工作在一個或多個數據平台。Beplay体育安卓版本這個團隊負責內部提出的藍圖和最佳實踐。他們提供的工具——例如,基礎設施自動化和自助服務訪問,確保安全性和遵從性需求得到滿足。這種方式,確保平台數據的負擔在一個核心團隊,因此分布式團隊可以專注Beplay体育安卓版本於處理數據和產生新的見解。

在Git使用磚回購的存儲代碼

磚回購的特性允許用戶筆記本或其他文件存儲在一個Git存儲庫,提供功能,如克隆存儲庫,實施和推動,拉動、分支機構管理和查看文件差別。為更好的代碼使用回購可見性和跟蹤。看到Git與磚回購的集成

DevOps標準化流程(CI / CD)

持續集成和持續交付(CI / CD)是指開發和交付軟件簡而言之,頻繁的周期使用自動化管道。這決不是一個新進程,無處不在的幾十年來在傳統的軟件工程,它正成為一個越來越必要的過程工程和數據科學團隊。對數據產品是有價值的,他們必須及時交付。此外,消費者必須有信心在這些產品結果的有效性。通過自動化的構建、測試和部署代碼,開發團隊可以提供更頻繁地發布和可靠地比手工流程仍然流行在許多工程和數據科學團隊。看到什麼是CI / CD磚嗎?

更多信息的最佳實踐代碼開發使用磚回購的,看到的CI / CD技術與Git和磚回購。加之磚REST API,允許與GitHub建立自動化部署流程操作,Azure DevOps管道,或詹金斯工作。

在MLOps標準化流程

構建和部署毫升模型是複雜的。有很多選擇實現這一目標,但小的良好定義的標準。因此,在過去的幾年中,我們已經看到機器學習操作(MLOps)的出現。MLOps是一組流程和自動化管理模型、數據和代碼來提高性能穩定和長期的ML係統的效率。它包括數據準備、探索性數據分析(EDA),功能工程、模型訓練、模型驗證、部署和監控。看到MLOps工作流在磚

  • 總是記住你的業務目標:正如毫升在業務的核心目的是使數據驅動的決策和產品,MLOps的核心目的是確保這些數據驅動的應用程序保持穩定,及時更新並繼續對業務產生積極的影響。當MLOps優先技術工作,考慮到業務影響:使新業務用例嗎?它提高了數據團隊的生產力?降低運營成本和風險嗎?

  • 管理毫升模型與一個專業但開放工具:建議跟蹤和管理與MLflow毫升模型,已與ML模型設計的生命周期。看到MLflow指南

  • 實現MLOps模塊化的方式:與任何軟件應用程序一樣,為一個毫升應用程序代碼質量是至關重要的。模塊化的代碼使測試的各個組件和減輕困難與未來的代碼重構。定義明確的步驟(如培訓、評估或部署),超級步驟(如training-to-deployment管道),和責任澄清毫升應用程序的模塊結構。

這是詳細描述磚MLOps白皮書

2。自動化部署和工作負載

使用基礎設施代碼部署和維護

HashiCorp起程拓殖是一個流行的開源工具用於創建安全、可預測的跨多個雲提供商的雲基礎設施。的磚起程拓殖的提供者管理數據磚工作區和相關的使用靈活的雲基礎設施,強大的工具。磚起程拓殖的提供者的目標是支持所有磚REST api,支持最複雜的自動化方麵的部署和管理您的數據平台。Beplay体育安卓版本磚起程拓殖的提供者是推薦的工具部署和管理集群和工作可靠,提供數據磚工作區,配置數據訪問。

使用集群政策

磚工作區管理員可以控製旋轉起來的集群的許多方麵,包括實例類型,磚版本,通過使用集群政策和實例的大小。工作空間管理員可以執行一些火花配置設置,它們可以配置多個集群政策,允許特定的一組用戶創建小型集群或單用戶集群,用戶創建大型集群的一些組織和其他團體隻使用現有的集群。看到管理集群政策

使用自動化的工作流程工作

  • 工作流程與工作(內部業務流程):

    我們建議使用工作流和工作數據處理和數據分析任務安排在磚與可伸縮集群的資源。工作可以由一個任務或一個大的多任務工作流與複雜的依賴關係。磚管理任務的編排、集群管理、監控、和錯誤報告你們的工作。你可以立即運行您的工作或定期通過一個易於使用的調度係統。使用筆記本,你可以實現工作任務的壇子,三角洲生活表管道,或Python, Scala,火花提交和Java應用程序。看到磚工作流程是什麼?

  • 外部協調器:

    綜合磚使用REST API的外部協調器來編排數據磚資產,筆記本電腦,和工作。看到Apache氣流

使用自動加載程序

自動加載程序增量地和有效地流程到達雲存儲新的數據文件。它可以攝取許多文件格式像JSON, CSV、拚花,AVRO,獸人,文本和BINARYFILE。輸入文件夾的雲存儲,自動加載程序自動流程為到達的新文件。

對於一次性的吞食,請考慮使用命令複製到。看到數據加載和複製

使用三角洲生活表

三角洲生活表是一種聲明性框架為構建可靠、可維護、可測試的數據處理管道。您定義的轉換數據和δ住表上執行管理任務編排、集群管理、監控、數據質量和錯誤處理。

與達美住表,很容易定義的端到端數據管道在SQL或Python:指定數據源,轉換邏輯,數據的目的地國家。三角洲生活表維護依賴和自動確定基礎設施運行的工作。

管理數據質量,δ生活表監控數據質量趨勢隨著時間的推移,防止錯誤數據通過驗證和完整性檢查流入表使用預定義的錯誤政策。看到δ生活是什麼表?

遵循毫升工作負載的部署代碼的方法

部署代碼的方法遵循這些步驟:

  • 培訓環境:開發訓練和輔助代碼。然後促進階段的代碼。

  • 登台環境:火車模型數據子集和測試輔助代碼。然後促進生產的代碼。

  • 生產環境:刺激列車模型數據和測試模型。然後部署模型和輔助管道。

看到模型部署模式

這個模型的主要優點是:

  • 這符合傳統軟件工程工作流程,使用熟悉的工具Git和CI / CD係統。

  • 支持自動鎖定環境中再培訓。

  • 隻有生產環境需要讀訪問刺激訓練數據。

  • 完全控製的訓練環境,這有助於簡化再現性。

  • 它使數據科學團隊使用模塊化的代碼和迭代測試,這有助於更大的項目的協調和發展。

這是詳細描述MLOps白皮書

使用注冊表來解耦模型代碼和模型生命周期

由於模型生命周期不對應一對一與代碼生命周期,它是有意義的模型管理有自己的服務。MLflow及其模型注冊支持管理模型工件直接通過UI和api。模型工件的鬆散耦合和代碼提供了靈活性更新生產模型沒有代碼更改,在許多情況下,簡化部署流程。模型工件使用MLflow安全訪問控製或雲存儲權限。看到生命周期管理模型統一目錄

使用MLflow Autologging

磚Autologging是一個沒有代碼解決方案,擴展MLflow自動記錄將自動實驗跟蹤磚機器學習訓練。磚Autologging自動捕獲模型參數、指標、文件和血統信息當你火車模型與培訓記錄為MLflow跟蹤運行運行。

重用相同的基礎設施管理毫升管道

毫升管道應該自動化使用許多相同的技術和其他的數據管道。使用磚起程拓殖的提供者自動化部署。毫升需要部署的基礎設施如推理工作,服務端點和featurization工作。所有毫升管道可以自動化工作流程與工作,許多以數據為中心的ML管道可以使用更專業自動加載程序攝取圖像和其他數據三角洲生活表計算功能或監控指標。

3所示。設置監控、報警和日誌記錄

Beplay体育安卓版本使用監測平台監測

把磚與CloudWatch使指標來源於日誌和警報。監測應用的見解可以幫你自動發現日誌中包含的字段,然後呢CloudWatch日誌的見解為更快的調試和分析提供了一個專用的查詢語言。

看到如何監視和亞馬遜CloudWatch磚嗎

集群監控通過Ganglia

幫助監控集群,磚從集群提供Ganglia指標細節頁麵,這些包括GPU指標。看到Ganglia指標

SQL倉庫監控

監控SQL倉庫必須了解隨著時間的推移,加載配置文件和管理SQL倉庫有效。與SQL倉庫監控,您可以查看信息,如查詢由倉庫的數量或數量的集群分配給倉庫。

自動加載程序監控

自動加載器提供了一個SQL API檢查的狀態流。使用SQL函數,您可以找到關於文件的元數據,發現了一個汽車加載程序流。看到監控自動加載程序

與Apache火花流媒體查詢偵聽器接口,自動加載程序流可以進一步監控。

三角洲生活表監控

創建和維護一個事件日誌每三角洲住表管道。事件日誌包含所有相關的信息管道,包括審計日誌,數據質量檢查,管道的進步,和數據血統。您可以使用事件日誌跟蹤、了解和監控您的數據管道。看到管道監控三角洲生活表

流媒體監控

流媒體是一個最重要的數據處理技術對攝入和分析。它為用戶和開發人員提供低延遲和實時數據處理能力分析和觸發動作。磚Lakehouse平台允許您方便地監視的結構化流Beplay体育安卓版本查詢。看到監控流查詢結構化數據磚

額外的信息可以在專用的UI實時指標和統計數據。有關更多信息,請參見看看新的結構化流媒體用戶界麵在Apache 3.0火花

成本監控

看到成本優化,監視和控製成本

4所示。管理能力和配額

管理服務和配額限製

每一個服務啟動了雲將不得不考慮限製,如訪問速率限製,數量的情況下,用戶數量和內存需求。你的雲提供商,檢查雲計算的限製。設計一個解決方案之前,這些限製需要被理解。

具體來說,磚的平台,有不同類型的限製:Beplay体育安卓版本

磚平台的限製:Beplay体育安卓版本這些都是磚資源的具體限製。整個平台記錄的限製Beplay体育安卓版本限製

統一目錄限製:統一目錄資源配額

訂閱/賬戶限額:磚利用雲資源為其服務。例如,在磚上運行的工作負載集群,磚平台開始雲提供商的虛擬機(VM)。Beplay体育安卓版本雲提供商設置默認配額多少虛擬機可以同時開始。根據需要,這些配額可能需要調整。

進一步的細節,請參閱Amazon EC2服務配額

以類似的方式、存儲、網絡和其他雲服務的局限性,需要理解和消化。

在容量規劃投資

計劃的預期負載波動等幾個原因可能發生突然業務變化甚至世界大事。測試負載變化,包括意想不到的,以確保您的工作負載可以規模。確保所有區域能充分擴展到支持總負載如果地區失敗。考慮:

  • 技術和服務限製和局限性的雲。看到管理能力和配額

  • sla確定服務時使用的設計。

  • 成本分析,以確定有多少改進將在應用程序中實現如果成本增加。如果價格評估是值得投資的。