跳轉到主要內容
工程的博客

分析你與DataFrames MLflow數據

2019年10月3日 工程的博客

分享這篇文章
馬克斯·艾倫實習與磚工程在2019年的夏天。這篇博客,寫的馬克斯,凸顯了偉大的工作,他在團隊。

介紹MLflow和機器學習開發生命周期

MLflow是一個開源平台的機器學習生命周期,和Beplay体育安卓版本許多磚客戶一直用它來開發和部署模型beplay体育app下载地址發現金融詐騙,找到銷售趨勢,權力ride-hailing。的一個重要部分機器學習開發生命周期測試了不同的模型,每一種都可以使用不同的算法,構造hyperparameters和數據集。MLflow跟蹤組件允許所有這些參數和屬性模型的跟蹤,以及關鍵指標如準確性、損失,AUC。幸運的是,由於我們引入自動對數MLflow 1.1,這些跟蹤工作將照顧你。

下一步是理解過程中機器學習模型執行基於結果的最佳指標。當你隻有少數運行比較,MLflow UI的比較功能運行良好。您可以查看運行的指標排隊相鄰並創建散點,線,平行坐標圖。

兩個新api MLflow數據進行分析

然而,當運行在一個實驗和模型數量的增長(特別是在運行一個AutoML或hyperparameter搜索算法),變得繁瑣的分析在UI中。在某些情況下,您會希望直接訪問實驗數據來創建自己的陰謀,做額外的數據工程,或使用一個多步驟的工作流中的數據。這就是為什麼我們已經創建了兩個新的api,允許用戶訪問他們MLflow DataFrame數據。第一個是一個從MLflow Python API訪問客戶端返回一個熊貓DataFrame。API,第二個是一個Apache火花數據源加載數據到火花DataFrame MLflow實驗。一旦運行數據訪問DataFrame,有許多不同類型的分析,可以幫助您選擇最好的機器學習模型為您的應用程序。

熊貓DataFrame搜索API

注意:大熊貓DataFrame搜索API可用MLflow開源版本1.1.0版或更高版本。這也是預裝在運行時6.0毫升,大磚。

因為熊貓是這樣一個常用庫數據科學家,我們決定創建一個mlflow.search_runs ()API返回您的MLflow在運行熊貓DataFrame。這個API需要在類似的爭論mlflow.tracking.search_runs ()API,除了page_token參數。這個API自動分頁通過你所有的運行並將它們添加到DataFrame。使用它非常簡單:

進口mlflow
              運行= mlflow.search_runs (“< experiment_id >”)< / experiment_id >

如果你不提供一個實驗ID、API試圖找到MLflow實驗與你的筆記本。這將工作情況下當你以前創建的MLflow運行在這個筆記本上。否則,ID為特定的實驗中,你可以找到它在MLflow界麵:

磚MLflow用戶界麵和實驗ID和工件的位置

或者你可以通過編程的方式如果你知道實驗的全名:

mlflow.tracking進口MlflowClient
              客戶= MlflowClient ()exp_id = client.get_experiment_by_name (“< experiment_name >”).experiment_id< / experiment_name >

等可選參數的搜索API還需要一個過濾器字符串,它遵循搜索語法中描述MLflow搜索文檔。加載模型與指標“準確性”超過85%看起來像下麵的查詢:

運行= mlflow.search_runs (“
免費試著磚
看到所有工程的博客的帖子
Baidu
map