Databricks運行時10.1 for Machine Learning(不支持)

Databricks Runtime 10.1 for Machine Learning為機器學習和數據科學提供了一個現成的環境Databricks Runtime 10.1(不支持)。Databricks Runtime ML包含了許多流行的機器學習庫,包括TensorFlow、PyTorch和XGBoost。它還支持使用Horovod進行分布式深度學習訓練。

有關更多信息,包括創建Databricks Runtime ML集群的說明,請參見用於機器學習的Databricks運行時

新功能和改進

Databricks Runtime 10.1 ML是在Databricks Runtime 10.1的基礎上構建的。有關Databricks Runtime 10.1的新內容,包括Apache Spark MLlib和SparkR的信息,請參見Databricks Runtime 10.1(不支持)發行說明。

對Databricks AutoML的增強

在Databricks Runtime 10.1中,Databricks AutoML包含了改進的語義類型檢測、訓練期間潛在數據問題的新警報、防止模型過擬合的新功能,以及按時間順序將輸入數據集分割為訓練集、驗證集和測試集的能力。

額外的語義類型檢測

AutoML現在支持額外的語義類型檢測:

  • 包含類別標簽的數字列被視為類別類型。

  • 包含英文文本的字符串列被視為文本特性。

您現在還可以添加注釋來指定列數據類型。有關詳細信息,請參見語義類型檢測

培訓期間對潛在數據問題的提醒

AutoML現在檢測並生成數據集潛在問題的警報。示例警報包括不支持的列類型和高基數列。這些警報出現在實驗頁麵的新警報選項卡。關於警報的其他信息包含在數據探索筆記本中。更多信息,請參見運行實驗並監測結果

減少模型過度擬合

兩個新功能減少了使用AutoML時模型過擬合的機會:

  • AutoML現在除了驗證和培訓指標外,還報告測試指標。

  • AutoML現在使用提前停止。如果驗證指標不再改善,它會停止訓練和調優模型。

按時間順序將數據集拆分為訓練集/驗證集/測試集

對於分類和回歸問題,可以按時間順序將數據集分為訓練集、驗證集和測試集。看到將數據拆分為訓練/驗證/測試集獲取詳細信息。

對Databricks功能商店的增強

Databricks Feature Store現在支持特性表的額外數據類型:BinaryType,DecimalType,MapType。更多信息,請參見支持的數據類型

Mlflow

以下改進從Mlflow版本1.21.0開始可用,該版本包含在Databricks Runtime 10.1 ML中。

  • (模型)升級fastaiModel flavor支持fastai v2(2.4.1及以上版本)。

  • [模型]引入一個mlflow。先知model flavor for Prophet time series models.

  • [評分]修複模式強製錯誤,錯誤地將日期類字符串轉換為datetime對象。

Hyperopt

SparkTrials現在支持early_stopping_fn參數fmin。您可以使用早期停止功能來指定在達到最大計算次數之前Hyperopt應該停止超參數調優的條件。例如,如果目標函數不再遞減,可以使用此參數結束調優。有關詳細信息,請參見fmin ()

對Databricks Runtime ML Python環境的主要更改

Python包升級

  • Automl 1.3.1 => 1.4.1

  • Feature_store 0.3.4 => 0.3.5

  • 節假日0.11.2 => 0.11.3.1

  • Horovod 0.22.1 => 0.23.0

  • hyperopt 0.2.5。db2 = > 0.2.5.db4

  • Imbalanced-learn 0.8.0 => 0.8.1

  • Lightgbm 3.1.1 => 3.3.0

  • Mlflow 1.20.2 => 1.21.0

  • petstorm 0.11.2 => 0.11.3

  • Plotly 5.1.0 => 5.3.0

  • Pytorch 1.9.0 => 1.9.1

  • 空間3.1.2 => 3.1.3

  • Sparkdl 2.2.0_db3 => 2.2.0_db4

  • Torchvision 0.10.0 => 0.10.1

  • 變形金剛4.9.2 => 4.11.3

Python包添加

  • fasttext = > 0.9.2

  • tensorboard-plugin-profile = > 2.5.0

的用法

MLlib自動的MLflow跟蹤已在運行Databricks Runtime 10.1 ML及以上版本的集群上棄用。相反,使用MLflow PySpark ML自動記錄通過調用mlflow.pyspark.ml.autolog ()。自動記錄是默認啟用的磚Autologging

係統環境

Databricks Runtime 10.1 ML中的係統環境與Databricks Runtime 10.1的區別如下:

以下部分列出了Databricks Runtime 10.1 ML中包含的不同於Databricks Runtime 10.1中的庫。

Python庫

Databricks Runtime 10.1 ML使用Virtualenv進行Python包管理,包含了許多流行的ML包。

除以下章節中指定的包外,Databricks Runtime 10.1 ML還包括以下包:

  • hyperopt 0.2.5.db4

  • sparkdl 2.2.0-db4

  • feature_store 0.3.5

  • automl 1.4.0

請注意

由於不兼容問題,Databricks Runtime 10.1 ML包含了scikit-learn版本0.24而不是版本1.0。scikit-learn包與Databricks Runtime 10.1 ML中的許多其他包進行交互。

可以升級到scikit-learn 1.0版本;但是,Databricks不支持這個版本。

升級,使用notebook-scoped庫。從筆記本上,跑%皮普安裝——升級“scikit-learn > = 1.0 < 1.1”

另一種選擇是使用這個集群init腳本:

# !/bin/bash-e PIP install——upgrade“scikit-learn > = 1.0 < 1.1”

CPU集群上的Python庫

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白劑

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目錄

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

鏗鏘聲

5.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.3

databricks-cli

0.14.3

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.0.19

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

lightgbm

3.3.0

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.18.1

mlflow-skinny

1.21.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

20.9

熊貓

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感覺”

0.6.0

容易受騙的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.3.0

3.0.5

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.0

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.39.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smart-open

5.2.0

smmap

3.0.5

寬大的

3.1.3

spacy-legacy

3.0.8

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow-cpu

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.9

threadpoolctl

魅惑

分詞器

0.10.3

火炬

1.9.1 + cpu

torchvision

0.10.1 + cpu

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

變形金剛

4.11.3

打字機

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

0.7.4

芥末醬

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化鋅碘仿糊

3.4.1

GPU集群上的Python庫

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白劑

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目錄

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

鏗鏘聲

5.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.3

databricks-cli

0.14.3

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.0.19

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

lightgbm

3.3.0

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.18.1

mlflow-skinny

1.21.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

20.9

熊貓

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感覺”

0.6.0

容易受騙的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.3.0

3.0.5

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.1發布

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.39.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smart-open

5.2.0

smmap

3.0.5

寬大的

3.1.3

spacy-legacy

3.0.8

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.9

threadpoolctl

魅惑

分詞器

0.10.3

火炬

1.9.1 + cu111

torchvision

0.10.1 + cu111

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

變形金剛

4.11.3

打字機

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

0.7.4

芥末醬

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化鋅碘仿糊

3.4.1

包含Python模塊的Spark包

火花包

Python模塊

版本

graphframes

graphframes

0.8.2-db1-spark3.2

R庫

R庫與R庫在Databricks Runtime 10.1。

Java和Scala庫(Scala 2.12集群)

除Databricks Runtime 10.1中的Java和Scala庫外,Databricks Runtime 10.1 ML中還包含以下jar:

CPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-spark_2.12

1.4.1

ml.dmlc

xgboost4j_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db6-spark3.2

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-gpu_2.12

1.4.1

ml.dmlc

xgboost4j-spark-gpu_2.12

1.4.1-spark3.2

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.21.0

org.mlflow

mlflow-spark

1.21.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0