模型訓練示例

本節包括一些示例,展示如何使用許多流行的開源庫在Databricks上訓練機器學習和深度學習模型。

你也可以用AutoML它會自動為模型訓練準備一個數據集,使用諸如scikit-learn和XGBoost等開源庫執行一組試驗,並為每次試驗運行創建一個包含源代碼的Python筆記本,以便您可以檢查、複製和修改代碼。

關於一個演示如何訓練一個使用Unity Catalog中的數據的機器學習模型並將預測寫回Unity Catalog的筆記本示例,請參見使用Unity Catalog數據進行Python ML模型訓練

機器學習例子

筆記本(s)

特性

scikit-learn

機器學習快速入門

分類模型,MLflow,使用Hyperopt和MLflow自動超參數調優

scikit-learn

使用模型注冊表的機器學習

分類模型,MLflow,使用Hyperopt和MLflow自動超參數調優,模型注冊表

scikit-learn

的端到端示例

分類模型,MLflow,使用Hyperopt和MLflow的自動超參數調優,XGBoost,模型注冊,模型服務

MLlib

MLlib例子

二叉分類,決策樹,GBT回歸,結構化流,自定義變壓器

xgboost

XGBoost例子

Python、PySpark和Scala,單節點工作負載和分布式培訓

深度學習的例子

也看到在Databricks上的深度學習最佳實踐

筆記本

特性

TensorFlow Keras

深度學習快速入門

TensorFlow Keras, TensorBoard, Hyperopt, MLflow

TensorFlow(單節點)

TensorFlow教程與MNIST數據集

TensorFlow, TensorBoard

PyTorch(單節點)

PyTorch教程與MNIST數據集

PyTorch

關於分布式深度學習培訓,請參見:

筆記本

特性

HorovodRunner (TensorFlow Keras)

TensorFlow Keras MNIST的例子

TensorFlow Keras單節點到分布式訓練

HorovodRunner (PyTorch)

PyTorch MNIST例子

PyTorch單節點進行分布式訓練

HorovodRunner

Horovod時間表

Horovod時間表

horovod.spark(PyTorch和Keras)

horovod.sparkpackage

horovod.spark用於與Keras和PyTorch一起在ML管道中使用的估計器API

spark-tensorflow-distributor

使用TensorFlow進行分布式訓練

在Apache Spark集群上使用TensorFlow進行分布式培訓

超參數調優示例

有關Databricks中超參數調優的一般信息,請參見Hyperparameter調優

筆記本

特性

Hyperopt

分布式hyperopt

分布式hyperopt, scikit-learn, MLflow

Hyperopt

比較模型

使用分布式超選擇同時搜索不同模型類型的超參數空間

Hyperopt

分布式訓練算法和超選擇

Hyperopt, MLlib

Hyperopt

Hyperopt最佳實踐

不同大小的數據集的最佳實踐