分布式XGBoost模型使用的培訓sparkdl.xgboost
預覽
這個特性是在公共預覽。
請注意
sparkdl.xgboost
是廢棄磚開始運行時12.0毫升,刪除在磚運行時的13.0毫升以上。將工作負載遷移到信息xgboost.spark
,請參閱棄用sparkdl遷移指南。xgboost模塊。
磚運行時毫升包括PySpark估計基於Pythonxgboost
包,sparkdl.xgboost.XgboostRegressor
和sparkdl.xgboost.XgboostClassifier
。您可以創建一個毫升管道基於這些估計。有關更多信息,請參見XGBoost PySpark管道。
磚強烈建議sparkdl.xgboost
用戶使用磚運行時11.3 LTS毫升以上。先前的磚舊版本的運行時版本受到錯誤的影響sparkdl.xgboost
。
請注意
的
sparkdl.xgboost
模塊是自磚棄用運行時12.0毫升。磚建議您將您的代碼遷移到使用xgboost.spark
模塊。看到遷移向導。以下的參數
xgboost
包不支持:gpu_id
,output_margin
,validate_features
。的參數
sample_weight
,eval_set
,sample_weight_eval_set
不受支持。相反,使用參數weightCol
和validationIndicatorCol
。看到XGBoost PySpark管道獲取詳細信息。的參數
base_margin
,base_margin_eval_set
不受支持。使用的參數baseMarginCol
代替。看到XGBoost PySpark管道獲取詳細信息。的參數
失蹤
有不同的語義xgboost
包中。在xgboost
包,SciPy稀疏矩陣的零值被視為缺失值的價值無關失蹤
。PySpark估計的sparkdl
包,零值火花稀疏向量並不作為缺失值,除非你設置失蹤= 0
。如果你有一個稀疏的訓練數據集(大多數特性值缺失),磚推薦設置失蹤= 0
減少內存消耗,實現更好的性能。
分布式訓練
磚運行時毫升支持分布式XGBoost訓練使用num_workers
參數。使用分布式培訓,創建一個分類或回歸量和集num_workers
一個值小於或等於您的集群上的工人數量。
例如:
分類器=XgboostClassifier(num_workers=N)回歸量=XgboostRegressor(num_workers=N)
分布式訓練的局限性
你不能使用
mlflow.xgboost.autolog
與分布式XGBoost。你不能使用
baseMarginCol
與分布式XGBoost。你不能使用分布式XGBoost啟用了自動定量的集群。看到集群規模和自動定量禁用自動定量說明。
GPU培訓
請注意
磚運行時11.3 LTS毫升包括XGBoost 1.6.1,不支持GPU集群計算能力5.2甚至更低。
磚運行時9.1 LTS毫升以上支持GPU集群XGBoost培訓。使用GPU集群,集use_gpu
來真正的
。
例如:
分類器=XgboostClassifier(num_workers=N,use_gpu=真正的)回歸量=XgboostRegressor(num_workers=N,use_gpu=真正的)