Apache火花MLlib和自動化MLflow跟蹤

請注意

MLlib自動化MLflow跟蹤集群運行數據磚上棄用運行時10.1毫升以上,它默認是禁用的集群運行磚運行時的10.2毫升以上。相反,使用MLflow PySpark毫升autologging通過調用mlflow.pyspark.ml.autolog (),這是默認啟用磚Autologging

在磚使用舊MLlib自動化MLflow跟蹤運行時10.2毫升以上,使它通過設置火花配置spark.databricks.mlflow.trackMLlib.enabled真正的spark.databricks.mlflow.autologging.enabled

MLflow是一個開源的平台管理端到端機器學習生Beplay体育安卓版本命周期。MLflow支持跟蹤機器學習模型調優在Python中,R, Scala。對於Python筆記本,磚運行時磚運行時機器學習支持自動化MLflow跟蹤對於Apache火花MLlib模型調優。

MLlib自動化MLflow跟蹤,當您運行優化代碼使用CrossValidatorTrainValidationSplit,自動登錄MLflow hyperparameters和評價指標。沒有自動MLflow跟蹤,你必須顯式的API調用日誌MLflow。

管理MLflow運行

CrossValidatorTrainValidationSplit日誌優化結果嵌套MLflow運行:

  • 主要或父運行:信息CrossValidatorTrainValidationSplit主要的運行記錄。如果有一個活躍的已經運行,信息記錄到這個積極和主動跑不停止。如果沒有積極運行,MLflow創建一個新的運行,日誌,運行返回之前結束。

  • 孩子:每個hyperparameter設置測試和相應的評價指標記錄到一個孩子的主要運行下運行。

當調用符合(),磚建議積極MLflow運行管理;也就是說,包裝的調用符合()在一個“mlflow.start_run ():”聲明。這將確保信息記錄下自己的MLflow主要運行,並使它更容易記錄附加標記,運行參數或指標。

請注意

符合()多次被稱為MLflow運行在相同的活躍,多個運行相同的那些日誌主要運行。解決名稱衝突MLflow參數和標簽,MLflow附加一個UUID名稱衝突。

下麵的Python筆記本演示了自動化MLflow跟蹤。

自動化MLflow跟蹤筆記本

在新標簽頁打開筆記本

後執行的操作在過去的細胞在筆記本上,MLflow界麵應該顯示:

MLlib-MLflow演示