模型訓練示例
本節包括一些示例,展示如何使用許多流行的開源庫在Databricks上訓練機器學習和深度學習模型。
你也可以用AutoML它會自動為模型訓練準備一個數據集,使用諸如scikit-learn和XGBoost等開源庫執行一組試驗,並為每次試驗運行創建一個包含源代碼的Python筆記本,以便您可以檢查、複製和修改代碼。
關於一個演示如何訓練一個使用Unity Catalog中的數據的機器學習模型並將預測寫回Unity Catalog的筆記本示例,請參見使用Unity Catalog數據進行Python ML模型訓練.
機器學習例子
包 |
筆記本(s) |
特性 |
---|---|---|
scikit-learn |
分類模型,MLflow,使用Hyperopt和MLflow自動超參數調優 |
|
scikit-learn |
分類模型,MLflow,使用Hyperopt和MLflow自動超參數調優,模型注冊表 |
|
scikit-learn |
分類模型,MLflow,使用Hyperopt和MLflow的自動超參數調優,XGBoost,模型注冊,模型服務 |
|
MLlib |
二叉分類,決策樹,GBT回歸,結構化流,自定義變壓器 |
|
xgboost |
Python、PySpark和Scala,單節點工作負載和分布式培訓 |
深度學習的例子
包 |
筆記本 |
特性 |
---|---|---|
TensorFlow Keras |
TensorFlow Keras, TensorBoard, Hyperopt, MLflow |
|
TensorFlow(單節點) |
TensorFlow, TensorBoard |
|
PyTorch(單節點) |
PyTorch |
關於分布式深度學習培訓,請參見:
包 |
筆記本 |
特性 |
---|---|---|
HorovodRunner (TensorFlow Keras) |
TensorFlow Keras單節點到分布式訓練 |
|
HorovodRunner (PyTorch) |
PyTorch單節點進行分布式訓練 |
|
HorovodRunner |
Horovod時間表 |
|
|
|
|
|
在Apache Spark集群上使用TensorFlow進行分布式培訓 |
超參數調優示例
有關Databricks中超參數調優的一般信息,請參見Hyperparameter調優.
包 |
筆記本 |
特性 |
---|---|---|
Hyperopt |
分布式hyperopt, scikit-learn, MLflow |
|
Hyperopt |
使用分布式超選擇同時搜索不同模型類型的超參數空間 |
|
Hyperopt |
Hyperopt, MLlib |
|
Hyperopt |
不同大小的數據集的最佳實踐 |