跟蹤模型開發

模型開發過程是迭代的，並且在您開發和優化模型時跟蹤您的工作是具有挑戰性的。在Databricks中，您可以使用MLflow跟蹤為了幫助您跟蹤模型開發過程，包括您嚐試過的參數設置或組合，以及它們如何影響模型的性能。

MLflow跟蹤使用實驗而且運行記錄和跟蹤您的模型開發。運行是模型代碼的一次執行。在MLflow運行期間，您可以記錄模型參數和結果。實驗是相關運行的集合。在實驗中，您可以比較和篩選運行，以了解您的模型如何執行，以及它的性能如何依賴於參數設置、輸入數據等等。

本文中的筆記本提供了一些簡單的示例，可以幫助您快速開始使用MLflow跟蹤模型開發。有關在Databricks中使用MLflow跟蹤的詳細信息，請參見跟蹤機器學習訓練跑．

請注意

MLflow跟蹤不支持提交的作業spark_submit_task在Jobs API中。相反，你可以使用MLflow項目運行Spark代碼。

使用自動記錄來跟蹤模型開發

MLflow可以自動記錄在許多ML框架中編寫的訓練代碼。這是開始使用MLflow跟蹤最簡單的方法。

這個例子說明了如何使用自動記錄scikit-learn．有關使用其他Python庫自動登錄的信息，請參見自動將訓練運行記錄到MLflow．

這本筆記本說明了如何使用MLflow日誌API。使用日誌API可以更好地控製記錄的指標，並允許記錄額外的工件，如表或圖。

這個示例筆記本演示了如何使用Python日誌API．MLflow也REST、R和Java api．

本教程介紹了一個在Databricks中訓練模型的端到端示例，包括加載數據、可視化數據、設置並行超參數優化，以及使用MLflow檢查結果、注冊模型和使用Spark UDF中注冊的模型對新數據執行推斷。