跟蹤模型開發

模型開發過程是迭代的,並且在您開發和優化模型時跟蹤您的工作是具有挑戰性的。在Databricks中,您可以使用MLflow跟蹤為了幫助您跟蹤模型開發過程,包括您嚐試過的參數設置或組合,以及它們如何影響模型的性能。

MLflow跟蹤使用實驗而且運行記錄和跟蹤您的模型開發。運行是模型代碼的一次執行。在MLflow運行期間,您可以記錄模型參數和結果。實驗是相關運行的集合。在實驗中,您可以比較和篩選運行,以了解您的模型如何執行,以及它的性能如何依賴於參數設置、輸入數據等等。

本文中的筆記本提供了一些簡單的示例,可以幫助您快速開始使用MLflow跟蹤模型開發。有關在Databricks中使用MLflow跟蹤的詳細信息,請參見跟蹤機器學習訓練跑

請注意

MLflow跟蹤不支持提交的作業spark_submit_task在Jobs API中。相反,你可以使用MLflow項目運行Spark代碼。

使用自動記錄來跟蹤模型開發

MLflow可以自動記錄在許多ML框架中編寫的訓練代碼。這是開始使用MLflow跟蹤最簡單的方法。

這個例子說明了如何使用自動記錄scikit-learn.有關使用其他Python庫自動登錄的信息,請參見自動將訓練運行記錄到MLflow

MLflow自記錄快速入門Python筆記本

使用日誌API來跟蹤模型開發

這本筆記本說明了如何使用MLflow日誌API。使用日誌API可以更好地控製記錄的指標,並允許記錄額外的工件,如表或圖。

這個示例筆記本演示了如何使用Python日誌API.MLflow也REST、R和Java api

MLflow日誌API快速入門Python筆記本

的端到端示例

本教程介紹了一個在Databricks中訓練模型的端到端示例,包括加載數據、可視化數據、設置並行超參數優化,以及使用MLflow檢查結果、注冊模型和使用Spark UDF中注冊的模型對新數據執行推斷。

需求

Databricks Runtime 6.5 ML或以上。

例如筆記本電腦

MLflow端到端示例筆記本