介紹MLflow運行邊欄在Databricks筆記本
在2019年Spark+AI峰會上,我們在Databricks上宣布了托管MLflow的GA其中我們采用了最新最好的開源MLflow,並使Databricks的所有用戶都可以輕鬆訪問它。在那篇博文中,我們承諾將構建一些特性來連接Databricks和MLflow概念,從而實現兩者之間的無縫集成。
今天,我們激動地宣布MLflow筆記本側欄,這是這些集成中的第一個。
在筆記本中跟蹤實驗並生成可複製的機器學習代碼是很困難的。我們喜歡筆記本界麵,因為它提供了編寫代碼和查看結果之間的快速迭代周期。然而,這些好處也使我們很難跟蹤所有的筆記本修訂。我們經常問這樣一個問題:它是無題的嗎?Ipynb或untitled(1)。Ipynb以x%的驗證準確性創建了這個訓練運行?
是UNTITLED創造了最好的模型還是UNTITLED(1)?這個梗改編自Joel Grus在JupyterCon的演講:我不喜歡筆記本.
傳統的版本管理工具(如Git)也不是為這個用例設計的。為您創建的每個訓練運行創建一個Git分支隻比複製筆記本好一點點,因為您仍然需要跟蹤每個分支的性能。
使用MLflow Runs側邊欄特性,我們試圖彌合筆記本的快速迭代周期和跟蹤代碼修訂的困難之間的差距。使用MLflow易於使用的跟蹤api,用戶已經可以跟蹤每次訓練運行的超參數和輸出指標。在Managed MLflow on Databricks中,我們還將自動獲取創建訓練運行的筆記本修訂的快照,並將其存儲為運行元數據的一部分。
使用這些數據,我們創建了一個筆記本側欄,顯示您從這個筆記本上記錄的所有實驗運行。有了這個側邊欄,用戶可以快速瀏覽他們的訓練,並查看創建每個訓練的筆記本的確切版本,以及它在那個時間點的樣子。當然,如果您發現要恢複的筆記本修訂,我們還允許您將其另存為Databricks工作區中的新筆記本。
https://www.youtube.com/watch?v=v-dkc2DvSw4
此外,MLflow Runs側邊欄上顯示的所有數據也顯示在我們都知道並喜歡的完整MLflow UI中。
https://www.youtube.com/watch?v=s4OPfXjFUE8
下一個步驟
MLflow運行側邊欄隻是一個開始——我們計劃在開發服務時擴展Databricks Managed MLflow,提供更多的集成和更簡單的工作流程。我們認為到目前為止,我們所擁有的已經對許多團隊有用,但是,我們希望聽到您的反饋。
如果您是現有的Databricks用戶,則可以通過導入快速入門筆記本為Azure磚或AWS.如果您還不是Databricks用戶,請訪問www.eheci.com/product/managed-mlflow開始免費試用Databricks和Managed MLflow。