Databricks運行時10.3 for Machine Learning(不支持)

Databricks Runtime 10.3 for Machine Learning為機器學習和數據科學提供了一個現成的環境Databricks Runtime 10.3(不支持).Databricks Runtime ML包含許多流行的機器學習庫,包括TensorFlow、PyTorch和XGBoost。Databricks Runtime ML包含AutoML,一個自動訓練機器學習管道的工具。Databricks Runtime ML還支持使用Horovod進行分布式深度學習訓練。

有關更多信息,包括創建Databricks Runtime ML集群的說明,請參見用於機器學習的Databricks運行時

新功能和改進

Databricks Runtime 10.3 ML構建在Databricks Runtime 10.3之上。有關Databricks Runtime 10.3中新增內容(包括Apache Spark MLlib和SparkR)的信息,請參見Databricks Runtime 10.3(不支持)發行說明。

對Databricks AutoML的增強

對以下方麵進行了增強磚AutoML

AutoML現在支持ARIMA模型進行預測

除了Prophet, AutoML現在還創建和評估ARIMA模型來預測問題。

從數據集中排除列

當您使用AutoML API時,您可以指定AutoML在計算過程中應該忽略的列。這隻適用於分類和回歸問題。看到分類和回歸參數獲取詳細信息。

從AutoML運行中排除算法框架

您可以指定算法框架,例如scikit-learn, AutoML在開發模型時不應該考慮這些框架。看到高級配置而且分類和回歸參數獲取詳細信息。

max_trials棄用

max_trials參數已棄用,將在下一個主要的Databricks Runtime ML版本中刪除。使用timeout_minutes來控製AutoML運行的持續時間。此外,在Databricks Runtime 10.1 ML及以上版本中,AutoML集成了早期停止;如果驗證度量不再改進,它將停止訓練和調優模型。

對Databricks功能商店的增強

現在可以對時間序列特性表應用時間點查找。看到使用時間序列特征表和時間點支持獲取詳細信息。

磚Autologging (GA)

Databricks autlogging現在可以在Databricks Runtime 10.3 ML中使用。Databricks autlogging是一個無代碼的解決方案,為Databricks上的機器學習培訓會話提供自動實驗跟蹤。通過Databricks autlogging,當您從各種流行的機器學習庫中訓練模型時,可以自動捕獲模型參數、指標、文件和沿襲信息。培訓課程記錄為MLflow跟蹤運行.模型文件也被跟蹤,因此您可以輕鬆地將它們記錄到MLflow模型注冊並將其用於實時評分MLflow模型服務

看到磚Autologging為更多的信息。

係統環境

“Databricks Runtime 10.3 ML”的係統環境與“Databricks Runtime 10.3”的不同之處如下:

以下部分列出了Databricks Runtime 10.3 ML中包含的與Databricks Runtime 10.3中包含的不同的庫。

Python庫

Databricks Runtime 10.3 ML使用Virtualenv進行Python包管理,並包含許多流行的ML包。

除以下章節中指定的包外,Databricks Runtime 10.3 ML還包括以下包:

  • hyperopt 0.2.7.db1

  • sparkdl 2.2.0-db5

  • feature_store 0.3.7

  • automl 1.6.0

CPU集群上的Python庫

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

bidict

0.21.4

漂白劑

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目錄

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.5

databricks-cli

0.16.2

dbl-tempo

0.1.2

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.4

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1.3

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

2.0

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.12

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.1.2

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.7.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

langcodes

3.3.0

libclang

12.0.0

lightgbm

3.3.1

llvmlite

0.38.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.18.1

mlflow-skinny

1.23.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.55.0

numpy

1.20.1

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

21.3

熊貓

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感覺”

0.6.0

容易受騙的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

發送的

pmdarima

1.8.4

3.0.5

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.9.0

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

python-engineio

4.3.0

python-socketio

5.4.1之前

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.40.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smart-open

5.2.0

smmap

3.0.5

寬大的

3.2.1之上

spacy-legacy

3.0.8

spacy-loggers

1.0.1

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.7.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.1

tensorflow-cpu

2.7.0

tensorflow-estimator

2.7.0

tensorflow-io-gcs-filesystem

0.23.1

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.12

threadpoolctl

魅惑

分詞器

0.10.3

火炬

1.10.1 + cpu

torchvision

0.11.2 + cpu

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

變形金剛

4.15.0

打字機

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

0.7.4

芥末醬

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.5.1

氧化鋅碘仿糊

3.4.1

GPU集群上的Python庫

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

bidict

0.21.4

漂白劑

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目錄

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.5

databricks-cli

0.16.2

dbl-tempo

0.1.2

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.4

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1.3

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

2.0

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.12

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.1.2

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.7.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

langcodes

3.3.0

libclang

12.0.0

lightgbm

3.3.1

llvmlite

0.38.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.18.1

mlflow-skinny

1.23.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.55.0

numpy

1.20.1

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

21.3

熊貓

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感覺”

0.6.0

容易受騙的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

發送的

pmdarima

1.8.4

3.0.5

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.9.0

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

python-engineio

4.3.0

python-socketio

5.4.1之前

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.40.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smart-open

5.2.0

smmap

3.0.5

寬大的

3.2.1之上

spacy-legacy

3.0.8

spacy-loggers

1.0.1

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.7.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.1

tensorflow

2.7.0

tensorflow-estimator

2.7.0

tensorflow-io-gcs-filesystem

0.23.1

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.12

threadpoolctl

魅惑

分詞器

0.10.3

火炬

1.10.1 + cu111

torchvision

0.11.2 + cu111

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

變形金剛

4.15.0

打字機

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

0.7.4

芥末醬

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.5.1

氧化鋅碘仿糊

3.4.1

包含Python模塊的Spark包

火花包

Python模塊

版本

graphframes

graphframes

0.8.2-db1-spark3.2

R庫

R庫與R庫在Databricks運行時10.3。

Java和Scala庫(Scala 2.12集群)

除了Databricks Runtime 10.3中的Java和Scala庫之外,Databricks Runtime 10.3 ML還包含以下jar:

CPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-spark_2.12

1.5.1

ml.dmlc

xgboost4j_2.12

1.5.1

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.23.0

org.mlflow

mlflow-spark

1.23.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-spark_2.12

1.5.1

ml.dmlc

xgboost4j_2.12

1.5.1

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.23.0

org.mlflow

mlflow-spark

1.23.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0