磚運行時為10.1毫升(不支持)

磚10.1運行時機器學習為機器學習和數據提供了一個準備好了環境科學的基礎上磚運行時的10.1(不支持)。磚運行時毫升含有許多流行的機器學習庫,包括TensorFlow PyTorch, XGBoost。它還支持使用Horovod分布深度學習培訓。

更多信息,包括指令創建磚集群運行時毫升、明白了介紹磚運行時機器學習

請注意

這些版本注釋可能包括引用功能不可用這個版本的穀歌雲。

新特性和改進

磚磚的運行時10.1毫升之上10.1運行時。有什麼新信息的磚10.1運行時,包括Apache火花MLlib和SparkR,看到磚運行時的10.1(不支持)發行說明。

增強磚AutoML

在磚10.1運行時,磚AutoML包括改進的語義類型檢測,在培訓新警告潛在的數據問題,新功能,防止過度擬合模型,並且能夠把輸入數據集分割成火車,驗證集和測試集順序。

額外的語義類型檢測

AutoML現在支持額外的語義類型檢測:

  • 數字列包含分類標簽被當作一個分類類型。

  • 字符串列包含英語文本被當作一個文本功能。

您還可以添加注釋指定列的數據類型。有關詳細信息,請參見語義類型檢測

警報在培訓期間潛在的數據問題

現在AutoML檢測和潛在問題的數據集生成警報。示例警報包括支持列類型和高基數列。這些警報出現在實驗在新頁警報選項卡。額外的警報信息包含在數據探索筆記本。有關更多信息,請參見運行試驗和監測結果

減少模型過度擬合

兩個新功能使用AutoML時減少過度擬合模型的可能性:

  • 現在AutoML報告測試指標的額外驗證和訓練指標。

  • AutoML現在使用早期停止。它停止訓練和調優模型如果驗證指標不再是改善。

將數據集分為訓練/驗證/測試集順序

對於分類和回歸問題,可以將數據集分為訓練,驗證集和測試集順序。看到將數據分為訓練/驗證/測試集獲取詳細信息。

增強磚特色商店

磚特性存儲現在支持額外的數據類型的功能表:BinaryType,DecimalType,MapType。有關更多信息,請參見支持的數據類型

Mlflow

可用以下改進在Mlflow 1.21.0版開始,這是包含在磚運行時的10.1毫升。

  • (模型)升級fastai模型味道支持fastai v2(2.4.1及以上)。

  • 引入一個mlflow(模型)。先知model flavor for Prophet time series models.

  • (得分)修複模式執行錯誤,錯誤地把日期字符串datetime對象。

Hyperopt

SparkTrials現在支持early_stopping_fn參數fmin。您可以使用早期停止函數來指定條件時Hyperopt應該停止hyperparameter調優之前評估的最大數量。例如,您可以使用這個參數調優如果目標函數不再減少。有關詳細信息,請參見fmin ()

重大變化磚Python運行時毫升的環境

Python包升級

  • automl 1.3.1 = > 1.4.1

  • feature_store 0.3.4 = > 0.3.5

  • 假期0.11.2 = > 0.11.3.1

  • horovod 0.22.1 = > 0.23.0

  • hyperopt 0.2.5。db2 = > 0.2.5.db4

  • imbalanced-learn 0.8.0 = > 0.8.1

  • lightgbm 3.1.1 = > 3.3.0

  • mlflow 1.20.2 = > 1.21.0

  • petastorm 0.11.2 = > 0.11.3

  • 情節5.1.0 = > 5.3.0

  • pytorch 1.9.0 = > 1.9.1

  • 寬大的3.1.2 = > 3.1.3

  • sparkdl 2.2.0_db3 = > 2.2.0_db4

  • torchvision 0.10.0 = > 0.10.1

  • 變形金剛4.9.2 = > 4.11.3

Python包添加

  • fasttext = > 0.9.2

  • tensorboard-plugin-profile = > 2.5.0

的用法

MLlib自動化MLflow跟蹤棄用集群上運行磚運行時10.1毫升以上。相反,使用MLflow PySpark毫升autologging通過調用mlflow.pyspark.ml.autolog ()。Autologging是默認啟用的磚Autologging

係統環境

磚的係統環境運行時10.1毫升不同於磚運行時的10.1如下:

下麵的章節列表庫包含在磚運行時的10.1毫升,不同於那些包含在磚10.1運行時。

Python庫

磚運行時10.1毫升使用Virtualenv Python包管理,包括許多流行毫升包。

除了包中指定在下麵幾節中,磚運行時10.1毫升的還包括以下方案:

  • hyperopt 0.2.5.db4

  • sparkdl 2.2.0-db4

  • feature_store 0.3.5

  • automl 1.4.0

請注意

磚運行時10.1毫升包括scikit-learn版本0.24而不是1.0版本不兼容的問題。scikit-learn包與許多其他包磚運行時10.1毫升。

你可以升級到1.0版本scikit-learn;然而,磚不支持這個版本。

升級,使用notebook-scoped庫。從一個筆記本,運行%皮普安裝——升級“scikit-learn > = 1.0 < 1.1”

另一種方法是使用它集群init腳本:

# ! / bin / bash- e pip安裝,升級“scikit-learn > = 1.0 < 1.1”

Python庫對CPU集群

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白劑

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目錄

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

鏗鏘聲

5.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.3

databricks-cli

0.14.3

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.0.19

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

lightgbm

3.3.0

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.18.1

mlflow-skinny

1.21.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

20.9

熊貓

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感覺”

0.6.0

容易受騙的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.3.0

3.0.5

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.0

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.39.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smart-open

5.2.0

smmap

3.0.5

寬大的

3.1.3

spacy-legacy

3.0.8

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow-cpu

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.9

threadpoolctl

魅惑

分詞器

0.10.3

火炬

1.9.1 + cpu

torchvision

0.10.1 + cpu

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

變形金剛

4.11.3

打字機

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

0.7.4

芥末醬

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化鋅碘仿糊

3.4.1

Python庫在GPU集群

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白劑

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目錄

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

鏗鏘聲

5.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.3

databricks-cli

0.14.3

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.0.19

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

lightgbm

3.3.0

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.18.1

mlflow-skinny

1.21.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

20.9

熊貓

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感覺”

0.6.0

容易受騙的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.3.0

3.0.5

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.1發布

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.39.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smart-open

5.2.0

smmap

3.0.5

寬大的

3.1.3

spacy-legacy

3.0.8

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.9

threadpoolctl

魅惑

分詞器

0.10.3

火炬

1.9.1 + cu111

torchvision

0.10.1 + cu111

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

變形金剛

4.11.3

打字機

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

0.7.4

芥末醬

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化鋅碘仿糊

3.4.1

引發包包含Python模塊

火花包

Python模塊

版本

graphframes

graphframes

0.8.2-db1-spark3.2

R庫

R庫的完全相同R庫在磚10.1運行時。

Java和Scala庫(Scala 2.12集群)

除了Java和Scala庫磚10.1運行時,磚運行時10.1毫升包含以下jar:

CPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-spark_2.12

1.4.1

ml.dmlc

xgboost4j_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db6-spark3.2

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-gpu_2.12

1.4.1

ml.dmlc

xgboost4j-spark-gpu_2.12

1.4.1-spark3.2

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.21.0

org.mlflow

mlflow-spark

1.21.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0