航跡模型開發
模型開發過程是迭代的,並且在開發和優化模型時跟蹤您的工作可能具有挑戰性。在Databricks中,您可以使用MLflow跟蹤幫助您跟蹤模型開發過程,包括您嚐試過的參數設置或組合,以及它們如何影響模型的性能。
MLflow跟蹤用途實驗而且運行記錄和跟蹤您的模型開發。運行是模型代碼的一次執行。在MLflow運行期間,您可以記錄模型參數和結果。實驗是相關運行的集合。在實驗中,您可以比較和篩選運行,以了解您的模型如何執行,以及它的性能如何依賴於參數設置、輸入數據等。
本文中的筆記本提供了一些簡單的示例,可以幫助您快速開始使用MLflow跟蹤模型開發。有關在Databricks中使用MLflow跟蹤的詳細信息,請參見跟蹤機器學習訓練運行.
請注意
MLflow跟蹤不支持提交的作業spark_submit_task在Jobs API中。相反,您可以使用MLflow項目運行Spark代碼。
使用自動記錄來跟蹤模型開發
MLflow可以自動記錄在許多ML框架中編寫的訓練代碼。這是開始使用MLflow跟蹤的最簡單方法。
這個示例筆記本展示了如何使用自動記錄scikit-learn.有關使用其他Python庫進行自記錄的信息,請參見自動將訓練運行記錄到MLflow.
使用日誌API來跟蹤模型開發
本筆記本演示了如何使用MLflow日誌API。使用日誌API可以更好地控製記錄的指標,並允許您記錄額外的工件,如表或圖。
這個示例筆記本顯示如何使用Python日誌API.MLflow也有REST、R和Java api.