介紹MLflow模型注冊表
2019年10月17日 在公司博客上
在今天的阿姆斯特丹Spark + AI峰會的新組件MLflow Model Registry的可用性MLflow開源ML平台Beplay体育安卓版本.自從我們在2018年Spark+AI峰會上引入MLflow以來,該項目已經獲得了140多名貢獻者,每月下載量達80萬次PyPI,使MLflow成為機器學習領域增長最快的開源項目之一!
MLflow已經具備了這樣的能力跟蹤度量、參數和工件作為實驗的一部分,包模型和可重複的ML項目,將模型部署到批處理或實時服務平台Beplay体育安卓版本.
MLflow模型注冊中心建立在MLflow現有功能的基礎上,為組織提供一個共享ML模型的中心場所,協作將模型從實驗轉移到測試和生產,並實現審批和治理工作流。自從我們開始MLflow以來,模型管理一直是我們的開源用戶最需要的特性,所以我們很高興能推出一個與MLflow直接集成的模型管理係統。
Model Registry為MLflow提供了新的工具,在ML模型的整個生命周期中共享、審查和管理ML模型
利用MLflow模型注冊表將良好的工程原理應用於機器學習
許多數據科學和機器學習項目的失敗是由於在十多年前軟件工程中發現並解決了一些可預防的問題。然而,由於開發代碼和訓練ML模型之間的關鍵差異,這些解決方案需要進行調整。
- 專業知識、代碼和數據:隨著數據的加入,data Science和ML代碼不僅需要處理數據依賴關係,還需要處理統計建模固有的不確定性特征。ML模型在訓練兩次時不能保證表現相同,這與可以輕鬆進行單元測試的傳統代碼不同。
- 模型工件:除了應用程序代碼,ML產品和特性還依賴於訓練過程的結果模型。這些模型構件通常很大(以千兆字節為數量級),並且通常需要以不同於代碼本身的方式提供服務。
- 合作:在大型組織中,在應用程序中部署的模型通常不是由負責部署的人員訓練的。實驗、測試和生產部署之間的交接與軟件工程中的批準過程相似,但不完全相同。
MLflow模型注冊中心解決了上述挑戰。下麵是這個新組件的一些關鍵特性。
一個用於協作管理ML模型的中心beplay娱乐ios
構建和部署ML模型是一項團隊活動。在機器學習模型的生命周期中,不僅責任經常被多人分擔(例如,數據科學家訓練模型,而生產工程師部署模型),而且,在每個生命周期階段,團隊可以從協作和共享中受益(例如,在組織的一個部分構建的欺詐模型可以在其他部分重用)。
新的模型注冊中心通過使ML模型更易於發現和提供協作特性來共同改進常見的ML任務,從而促進跨團隊的專業知識和知識共享。beplay娱乐ios隻需從您的實驗中注冊一個MLflow模型就可以開始了。注冊表將允許您跟蹤模型的多個版本,並為每個版本標記一個生命周期階段:開發、登台、生產或存檔。
通過MLflow Model Registry儀表板顯示的機器學習模型示例
靈活的CI/CD管道來管理階段轉換
MLflow Model Registry允許您手動或通過自動化工具管理模型的生命周期。類似於軟件工程中的批準過程,用戶可以手動請求將模型移動到一個新的生命周期階段(例如,從Staging到Production),並審查或評論其他用戶的轉換請求。或者,您可以使用Model Registry的API來插入持續集成和部署(CI/CD)工具,例如Jenkins來自動測試和轉換您的模型。每個模型還鏈接到在MLflow Tracking中構建它的實驗運行,以方便您查看模型。
MLflow中的機器學習模型示例頁麵視圖,顯示用戶如何請求和查看模型階段的更改
ML生命周期的可見性和治理
在大型企業中,在任何給定的時間點上,處於開發、階段和生產中的ML模型的數量可能是100個或1000個。充分了解哪些模型存在,它們處於哪個階段,以及誰在模型的部署階段上進行了協作和更改,可以讓組織更好地管理他們的ML工作。
MLflow模型注冊表通過跟蹤每個模型的曆史記錄和管理誰可以批準對模型階段的更改來提供完全的可見性並支持治理。
確定模型版本、階段和每個模型版本的作者
開始使用MLflow模型注冊表
在過去的幾個季度裏,我們一直在根據Databricks客戶的反饋來開發MLflow模型注冊表,今天,我們發布了MLflow的第一個開源補丁beplay体育app下载地址MLflow模型注冊表在GitHub上.我們很樂意聽到您的反饋!我們計劃在接下來的幾個月裏繼續開發注冊表,並將其包含在下一個MLflow發行版中。數據公司的客戶也可以beplay体育app下载地址在這裏注冊,開始與模型注冊.