Databricks運行時9.1 LTS for機器學習

Databricks在2021年9月發布了這張圖片,並宣布其為長期支持(LTS)。

Databricks Runtime 9.1 LTS for Machine Learning為機器學習和數據科學提供了一個現成的環境Databricks Runtime 9.1 LTS.Databricks Runtime ML包含許多流行的機器學習庫,包括TensorFlow、PyTorch和XGBoost。Databricks Runtime ML包含AutoML,一個自動訓練機器學習管道的工具。Databricks Runtime ML還支持使用Horovod進行分布式深度學習訓練。

有關更多信息,包括創建Databricks Runtime ML集群的說明,請參見用於機器學習的Databricks運行時

新功能和改進

AutoML

以下改進在Databricks Runtime 9.1 LTS ML及以上版本中可用。

AutoML通過采樣支持更大的數據集

AutoML現在對可能超出內存限製的數據集進行采樣,使其能夠在更大的數據集上運行,從而減少內存不足錯誤的風險。有關詳細信息,請參見抽樣大型數據集

AutoML基於語義類型對列進行預處理

AutoML檢測某些列的語義類型與它們的Spark或pandas數據類型不同。然後AutoML根據檢測到的語義類型轉換並應用數據預處理步驟。具體來說,AutoML執行以下轉換:

  • 表示日期或時間戳數據的字符串和整數列被轉換為時間戳類型。

  • 表示數值數據的字符串列被轉換為數值類型。

改進了AutoML生成的筆記本

對象中包含了日期和時間戳列的預處理步驟databricks-automl-runtime包,簡化了AutoML訓練生成的筆記本。databricks-automl-runtime已包含在Databricks Runtime 9.1 LTS ML及以上版本中,並可在PyPI

特色商店

以下改進在Databricks Runtime 9.1 LTS ML及以上版本中可用。

詳細信息請參見功能存儲文檔特性存儲API文檔

  • 在創建TrainingSet時,現在可以進行設置標簽=沒有支持無監督學習應用程序。

  • 現在,您可以在單個特性中指定多個特性FeatureLookup

  • 現在可以為特性表指定自定義路徑。使用路徑參數create_feature_table ().默認是數據庫位置。

  • 新的支持PySpark數據類型: ArrayType和ShortType。

Mlflow

以下改進從Mlflow版本1.20.2開始可用,該版本包含在Databricks Runtime 9.1 LTS ML中。

  • scikit-learn的自動記錄現在記錄訓練後的指標,每當一個scikit-learn評估API,例如sklearn.metrics.mean_squared_error,被稱為。

  • PySpark ML的自動記錄現在記錄訓練後的指標,每當一個模型評估API,例如Evaluator.evaluate (),被稱為。

  • mlflow。* .log_model而且mlflow。* .save_model現在有pip_requirements而且extra_pip_requirements參數,以便您可以直接指定要記錄或保存的模型的PIP需求。

  • mlflow。* .log_model而且mlflow。* .save_model現在,根據當前軟件環境自動推斷模型的PIP需求來記錄或保存。

  • stdMetrics在PySpark CrossValidator自動記錄過程中,條目現在被記錄為訓練指標。

  • PyTorch Lightning自動記錄現在支持分布式執行。

數據庫自動登入(公開預覽)

Databricks自動記錄公共預覽已經擴展到新的區域。Databricks autlogging是一個無代碼解決方案,它為Databricks上的機器學習培訓課程提供自動實驗跟蹤。通過Databricks autlogging,當您從各種流行的機器學習庫中訓練模型時,可以自動捕獲模型參數、指標、文件和沿襲信息。培訓課程記錄為MLflow跟蹤運行.模型文件也被跟蹤,因此您可以輕鬆地將它們記錄到MLflow模型注冊並將其用於實時評分MLflow模型服務

有關Databricks自動登錄的更多信息,請參見磚Autologging

對Databricks Runtime ML Python環境的主要更改

Python包升級

  • Automl 1.1.1 => 1.2.1

  • Feature_store 0.3.3 => 0.3.4.1

  • 假日0.10.5.2 => 0.11.2

  • Keras 2.5.0 => 2.6.0

  • Mlflow 1.19.0 => 1.20.2

  • petstorm 0.11.1 => 0.11.2

  • 情節4.14.3 => 5.1.0

  • Spark-tensorflow-distributor 0.1.0 => 1.0.0

  • Sparkdl 2.2.0_db1 => 2.2.0_db3

  • Tensorboard 2.5.0 => 2.6.0

  • Tensorflow 2.5.0 => 2.6.0

Python包添加

  • databricks-automl-runtime 0.1.0

係統環境

Databricks Runtime 9.1 LTS ML與Databricks Runtime 9.1 LTS的係統環境差異如下:

以下部分列出了Databricks Runtime 9.1 LTS ML中包含的與Databricks Runtime 9.1 LTS中包含的不同的庫。

Python庫

Databricks Runtime 9.1 LTS ML使用Virtualenv進行Python包管理,並包含許多流行的ML包。

除了以下章節中指定的包外,Databricks Runtime 9.1 LTS ML還包括以下包:

  • hyperopt 0.2.5.db2

  • sparkdl 2.2.0_db3

  • feature_store 0.3.4.1

  • automl 1.2.1 "

CPU集群上的Python庫

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白劑

3.3.0

boto3

1.16.7

botocore

1.19.7

瓶頸

1.3.2

cachetools

4.2.2

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

鏗鏘聲

5.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

Cython

0.29.23

databricks-automl-runtime

0.1.0

databricks-cli

0.14.3

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.2

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.0.0.2

facets-overview

1.0.0

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

h5py

3.1.0

hijri-converter

2.2.1

假期

0.11.2

horovod

0.22.1

htmlmin

0.1.12

idna

2.10

ImageHash

4.2.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.1

korean-lunar-calendar

0.2.1

lightgbm

3.1.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

1.1.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.17.0

mlflow-skinny

1.20.2

多重方法

1.4

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.0

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

20.9

熊貓

1.2.4

pandas-profiling

3.0.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

容易受騙的人

0.5.1

petastorm

0.11.2

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.1.0

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.3.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.39.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smmap

3.0.5

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-wit

1.8.0

tensorflow-cpu

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

threadpoolctl

魅惑

火炬

1.9.0 + cpu

torchvision

0.10.0 + cpu

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

是0.7.1

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化鋅碘仿糊

3.4.1

GPU集群上的Python庫

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白劑

3.3.0

boto3

1.16.7

botocore

1.19.7

瓶頸

1.3.2

cachetools

4.2.2

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

鏗鏘聲

5.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

Cython

0.29.23

databricks-automl-runtime

0.1.0

databricks-cli

0.14.3

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.2

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.0.0.2

facets-overview

1.0.0

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

h5py

3.1.0

hijri-converter

2.2.1

假期

0.11.2

horovod

0.22.1

htmlmin

0.1.12

idna

2.10

ImageHash

4.2.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.1

korean-lunar-calendar

0.2.1

lightgbm

3.1.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

1.1.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.17.0

mlflow-skinny

1.20.2

多重方法

1.4

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.0

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

20.9

熊貓

1.2.4

pandas-profiling

3.0.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

容易受騙的人

0.5.1

petastorm

0.11.2

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.1.0

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.3.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.39.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smmap

3.0.5

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-wit

1.8.0

tensorflow

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

threadpoolctl

魅惑

火炬

1.9.0 + cu111

torchvision

0.10.0 + cu111

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

是0.7.1

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化鋅碘仿糊

3.4.1

包含Python模塊的Spark包

火花包

Python模塊

版本

graphframes

graphframes

0.8.1-db3-spark3.1

R庫

R庫與R庫在Databricks Runtime 9.1 LTS中。

Java和Scala庫(Scala 2.12集群)

除了Databricks Runtime 9.1 LTS中的Java和Scala庫之外,Databricks Runtime 9.1 LTS ML還包含以下jar:

CPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-spark_2.12

1.4.1

ml.dmlc

xgboost4j_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db2-spark3.1

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-gpu_2.12

1.4.1

ml.dmlc

xgboost4j-spark-gpu_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db2-spark3.1

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0