Hyperparameter調優

磚為機器學習包含Hyperopt運行時,一個開源工具,自動模型選擇和hyperparameter調優的過程。

與Hyperopt Hyperparameter調優

磚運行時毫升包括HyperoptPython庫,促進分布式hyperparameter調優和模型選擇。使用Hyperopt,您可以掃描一組Python模型雖然不同算法和hyperparameters你定義的空間。Hyperopt與分布式ML算法例如Apache火花MLlib Horovod,以及單機毫升scikit-learn和TensorFlow等模型。

當使用Hyperopt的基本步驟是:

  1. 定義一個目標函數最小化。通常這是培訓或驗證的損失。

  2. 定義hyperparameter搜索空間。Hyperopt提供了一個有條件的搜索空間,它可以讓你比較不同的ML算法在相同的運行。

  3. 指定搜索算法。Hyperopt使用隨機優化算法,執行更有效的搜索比確定性hyperparameter空間網格搜索。

  4. 運行Hyperopt函數fmin ()fmin ()需要您在前麵的步驟中定義的項目和標識的hyperparameters集最小化目標函數。

開始迅速用Hyperopt scikit-learn算法,見:

更多細節Hyperopt是如何工作的,以及更多的例子,看:

自動化MLflow跟蹤

請注意

MLlib自動化MLflow跟蹤集群運行數據磚上棄用運行時10.1毫升以上,它默認是禁用的集群運行磚運行時的10.2毫升以上。相反,使用MLflow PySpark毫升autologging通過調用mlflow.pyspark.ml.autolog (),這是默認啟用磚Autologging

在磚使用舊MLlib自動化MLflow跟蹤運行時10.2毫升以上,使它通過設置火花配置spark.databricks.mlflow.trackMLlib.enabled真正的spark.databricks.mlflow.autologging.enabled