航跡模型開發

模型開發過程是迭代的,並且在開發和優化模型時跟蹤您的工作可能具有挑戰性。在Databricks中,您可以使用MLflow跟蹤幫助您跟蹤模型開發過程,包括您嚐試過的參數設置或組合,以及它們如何影響模型的性能。

MLflow跟蹤用途實驗而且運行記錄和跟蹤您的模型開發。運行是模型代碼的一次執行。在MLflow運行期間,您可以記錄模型參數和結果。實驗是相關運行的集合。在實驗中,您可以比較和篩選運行,以了解您的模型如何執行,以及它的性能如何依賴於參數設置、輸入數據等。

本文中的筆記本提供了一些簡單的示例,可以幫助您快速開始使用MLflow跟蹤模型開發。有關在Databricks中使用MLflow跟蹤的詳細信息,請參見跟蹤機器學習訓練運行

請注意

MLflow跟蹤不支持提交的作業spark_submit_task在Jobs API中。相反,您可以使用MLflow項目運行Spark代碼。

使用自動記錄來跟蹤模型開發

MLflow可以自動記錄在許多ML框架中編寫的訓練代碼。這是開始使用MLflow跟蹤的最簡單方法。

這個示例筆記本展示了如何使用自動記錄scikit-learn.有關使用其他Python庫進行自記錄的信息,請參見自動將訓練運行記錄到MLflow

MLflow自動快速入門Python筆記本

在新標簽頁打開筆記本

使用日誌API來跟蹤模型開發

本筆記本演示了如何使用MLflow日誌API。使用日誌API可以更好地控製記錄的指標,並允許您記錄額外的工件,如表或圖。

這個示例筆記本顯示如何使用Python日誌API.MLflow也有REST、R和Java api

MLflow日誌API快速入門Python筆記本

在新標簽頁打開筆記本

的端到端示例

本教程提供了一個在Databricks中訓練模型的端到端示例,包括加載數據、可視化數據、設置並行超參數優化,以及使用MLflow檢查結果、注冊模型,並使用Spark UDF中注冊的模型對新數據執行推斷。

需求

Databricks運行時ML

例如筆記本電腦

MLflow端到端示例筆記本

在新標簽頁打開筆記本