使用XGBoost磚
學習如何在磚使用XGBoost訓練機器學習模型。磚運行時機器學習包括XGBoost Python和Scala庫。
警告
有一個版本的XGBoost 1.2.0和低錯誤這可能導致共享火花上下文如果XGBoost模型訓練失敗被殺。恢複的唯一方法就是重新啟動集群。磚運行時7.5毫升,包括一個低版本的XGBoost受這個缺陷的影響。安裝一個不同版本的XGBoost,看到上安裝XGBoost磚。
火車XGBoost模型在單個節點上
你可以訓練模型使用Pythonxgboost
包中。這個包隻支持單一節點的工作負載。訓練PySpark毫升管道和利用分布式訓練,明白了分布式XGBoost模型的訓練。
分布式XGBoost模型的訓練
分布式訓練XGBoost模型、磚包括PySpark估計量的基礎上xgboost
包中。磚還包括Scala的包xgboost-4j
。對於細節和示例的筆記本,見以下:
分布式訓練使用xgboost.spark XGBoost模型(磚運行時的12.0毫升以上)
分布式訓練使用sparkdl.xgboost XGBoost模型(棄用磚開始運行時12.0毫升)