機器學習

本節包括示例筆記本,顯示了如何使用數據映射使用最受歡迎的軟件包來訓練模型。

Scikit-Learn

Scikit-Learn是單節點機器學習最受歡迎的Python庫之一。它包含在Databricks運行時和Databricks運行時ML中。看Databricks運行時發行注釋對於Scikit-Learn庫版本,您的集群運行時包含。

mllib

Apache Spark Mllib是Apache Spark Machine Learning庫,該庫由共同的學習算法和實用程序組成,包括分類,回歸,聚類,協作過濾,降低尺寸降低和基礎優化基原始人。beplay娱乐ios

xgboost

xgboost是專門為培訓決策樹和隨機森林而設計的流行機器學習庫。它包含在Databricks運行時ML中。有關在Databricks運行時安裝XGBoost的信息,或在Databricks運行時ML上安裝自定義版本,請參閱這些說明

您可以在單獨的機器或分布式方式上訓練XGBoost模型。