Apache火花MLlib和自動化MLflow跟蹤
請注意
MLlib自動化MLflow跟蹤集群運行數據磚上棄用運行時10.1毫升以上,它默認是禁用的集群運行磚運行時的10.2毫升以上。相反,使用MLflow PySpark毫升autologging通過調用mlflow.pyspark.ml.autolog ()
,這是默認啟用磚Autologging。
在磚使用舊MLlib自動化MLflow跟蹤運行時10.2毫升以上,使它通過設置火花配置spark.databricks.mlflow.trackMLlib.enabled真正的
和spark.databricks.mlflow.autologging.enabled假
。
MLflow是一個開源的平台管理端到端機器學習生Beplay体育安卓版本命周期。MLflow支持跟蹤機器學習模型調優在Python中,R, Scala。對於Python筆記本,磚運行時和磚運行時機器學習支持自動化MLflow跟蹤對於Apache火花MLlib模型調優。
MLlib自動化MLflow跟蹤,當您運行優化代碼使用CrossValidator
或TrainValidationSplit
,自動登錄MLflow hyperparameters和評價指標。沒有自動MLflow跟蹤,你必須顯式的API調用日誌MLflow。
管理MLflow運行
CrossValidator
或TrainValidationSplit
日誌優化結果嵌套MLflow運行:
主要或父運行:信息
CrossValidator
或TrainValidationSplit
主要的運行記錄。如果有一個活躍的已經運行,信息記錄到這個積極和主動跑不停止。如果沒有積極運行,MLflow創建一個新的運行,日誌,運行返回之前結束。孩子:每個hyperparameter設置測試和相應的評價指標記錄到一個孩子的主要運行下運行。
當調用符合()
,磚建議積極MLflow運行管理;也就是說,包裝的調用符合()
在一個“與mlflow.start_run ():
”聲明。這將確保信息記錄下自己的MLflow主要運行,並使它更容易記錄附加標記,運行參數或指標。
請注意
當符合()
多次被稱為MLflow運行在相同的活躍,多個運行相同的那些日誌主要運行。解決名稱衝突MLflow參數和標簽,MLflow附加一個UUID名稱衝突。
下麵的Python筆記本演示了自動化MLflow跟蹤。
後執行的操作在過去的細胞在筆記本上,MLflow界麵應該顯示: