跳轉到主要內容
Beplay体育安卓版本平台的博客

管理MLflow磚現在公共預覽

分享這篇文章

在磚嚐試本教程

構建生產機器學習應用程序是一個挑戰,因為沒有標準的方法來記錄實驗,確保可再生的運行和管理和部署模型。為應對這些挑戰,去年6月我們介紹MLflow,一個開源的平台來管理毫升生命周期Beplay体育安卓版本,適用於任何機器學習庫和環境。項目發展迅速,擁有超過74的貢獻者和14版本。

今天,我們也興奮地宣布公共預覽管理MLflow磚上:一個完全MLflow集成到磚的管理版本。我們的目標與管理MLflow有兩方麵:

  1. 提供一個SaaS版本的MLflow管理和安全建立在方便使用。
  2. 集成MLflow整個磚統一分析平台Beplay体育安卓版本,這樣用戶可以再現性和實驗管理在他們磚筆記本,工作,數據存儲等。

在這篇文章中,我們將簡要描述MLflow,然後展示如何管理MLflow磚MLflow更容易利用上下文中的一個科學完整的數據平台。Beplay体育安卓版本

MLflow是什麼?

MLflow是一個輕量級的api和用戶接口,開發人員可以使用任何毫升框架來幫助簡化他們的工作流程。具體地說,它包括三個特點:

  • 試驗跟蹤,可以讓用戶捕獲實驗參數,代碼和度量和比較它們使用交互式UI或MLflow API。
  • 項目,一個簡單的包裝代碼和依賴可再生的運行或多步驟的管道。
  • MLflow模型,一組api相同包模型和部署模型許多生產環境(例如碼頭工人、Azure毫升服務或Apache火花TM工作)。

自從我們MLflow發布,我們發現一個開源平台的想法毫升生命周期與社區強烈共鳴。Beplay体育安卓版本這個項目已經從74多個開發人員和40家公司貢獻,如一個由RStudio R API和許多其他的添加。我們感到興奮MLflow持續增長在2019年基於社區的反饋。

一些統計MLflow開源社區的增長
一些統計MLflow開源社區的增長

MLflow管理,我們不僅提供MLflow作為服務,還擁抱整個磚MLflow工作區。例如,筆記本修改自動捕獲,與作為實驗的一部分,您可以運行項目數據磚工作,實驗是結合你的工作空間的安全控製。我們下一個描述這些關鍵功能。

跟蹤實驗數據磚工作區

創建高質量的ML模型通常需要大量的反複試驗和多次迭代的建設、測試、調優,等等。在這個過程中,必須跟蹤所有進入一個特定的運行,以及結果,然後能夠組織和安全地分享這些。現在您可以創建實驗對磚內部文件瀏覽器和記錄你的結果。

磚的試驗清單其運行和它們的關聯元數據工作區

記錄運行

您可以使用MLflow跟蹤API記錄運行跟蹤模型、參數、數據代碼,和結果。管理MLflow可以追蹤運行發生內部或外部數據磚工作區。記錄運行,隻需加載開源MLflow客戶端庫(即。,將其附加到您的磚集群),電話mlflow.start_run ()在您的代碼,然後叫MLflow(如日誌語句mlflow.log_param ())來捕獲參數、指標等。

如果您創建了一個運行在一個磚筆記本,磚自動捕獲和鏈接的跑回具體修訂的筆記本是用來生成它。你可以隨時恢複,修改編輯版本的代碼。

https://www.youtube.com/watch?v=rIC4rKetaVw

除了捕獲元數據,如hyperparameters和標簽,跑步還可以跟蹤模型和其他構件如圖片或文本文件。這些工件可能很大,所以默認文件係統存儲在磚(DBFS)這是由雲提供商的blob存儲,使數以百萬計的模型的存儲和管理。

管理實驗

MLflow實驗可以在磚工作區中創建和組織就像一個筆記本,圖書館,或文件夾。隻需點擊一個實驗看到其運行或列表進行比較。至關重要的是,與MLflow管理,實驗是結合磚的標準基於角色的訪問控製設置共享權限。

可再生的磚上運行的項目

可再生產地運行一個項目的能力是關鍵數據科學生產力,知識共享,和更快的發展。例如,一個項目可能包含從數據代碼創建特性,然後火車模型,該模型使用的數據和一組hyperparameters作為輸入。MLflow指定包一個項目在標準文件格式,它集成了Git,蟒蛇,和碼頭工人獲取依賴項,如圖書館、參數和數據(見下文關於究竟MLflow項目)。

MLflow管理,你可以在本地開發MLflow項目並執行遠程數據磚集群

https://www.youtube.com/watch?v=t3QyMgB037I

磚上運行一個項目從您的本地命令行輸入mlflow project_folder_or_git_url——模式運行磚——cluster-spec your_cluster_spec.json(了解更多關於集群的規格在我們的文檔AzureAWS)。你也可以實現相同的結果使用MLflow Python API,它可以讓你鏈在一起作為一個項目多步驟流程還是平行hyperparameter調優

在磚模型部署和行動

最後,您可以使用開源MLflow客戶機從內部磚筆記本和就業管理您的模型和跨任何服務部署到生產模式(批、流、低延遲休息等)在一個廣泛的部署平台。Beplay体育安卓版本你的部署選項包括:

  • 批處理或低延遲流(如使用結構化流)推理
    • 在磚大數據使用Apache火花
    • 在小數據模型使用本機格式(例如,scikit-learn或R)在磚。
  • 低延遲得分通過RESTful API使用MLflow內置的支持部署到Azure機器學習,亞馬遜SageMaker或碼頭工人。
  • 出口火花MLlib模型使用MLeap低延遲得分直接嵌入到JVM應用程序(請參閱更多在這裏)。
  • 通過MLflow API下載模型嵌入在一個應用程序。

所有這些部署操作可以執行通過開源MLflow從磚內庫。然而,部署模型隻是更大的圖景的一部分時操作化。例如,大多數模型是今天投入生產的安排他們進一批新數據以一定的間隔周期。這需要等作業調度器磚的工作。你可以安排一個磚工作取得的新數據每小時(一天或一周,取決於數據攝取速度),並自動提醒你如果出現任何錯誤或性能異常。

https://www.youtube.com/watch?v=PWXK7w6XEP8

用戶說什麼

啟動我們的公共預覽MLflow之前,我們還與許多私人預覽緊密合作客戶從生物技術領域的金融和電子商務。beplay体育app下载地址他們的反饋幫助我們大大提高MLflow。我們很高興看到MLflow幫助我們的客戶解決他們的ML生命周期管理的挑戰。beplay体育app下载地址

你可以加入我們數據+人工智能峰會聽到直接從其他組織如Comcast和Showtime MLflow如何幫助他們加快機器學習生命周期。

下一個步驟

我們的公共預覽MLflow管理僅僅是開始,我們計劃用更多的集成和擴展管理MLflow更簡單的工作流開發服務。迄今為止,我們認為我們已經用於許多團隊,然而,我們很樂意聽到你的反饋。

如果你現有的磚用戶,您就可以開始使用托管MLflow導入快速啟動筆記本Azure磚AWS。如果你沒有一個磚的用戶,訪問www.eheci.com/mlflow了解更多,開始的免費試用MLflow磚和管理。

最後,如果你想了解更多關於MLflow,不要錯過我們即將舉行的研討會機器學習完整的生命周期管理產品副總裁創始人——安迪Konwinski MLflow的磚和鉛的產品經理。此外,我們將提供一個MLflow培訓數據+人工智能峰會實踐經驗。我們很想聽聽你如何使用MLflow和如何使ML和數據開發周期更加簡單。

機器學習管理生命周期

免費試著磚
看到所有公告的帖子
Baidu
map