用於機器學習的Databricks運行時5.4(不支持)

Databricks在2019年6月發布了這張圖片。

Databricks Runtime 5.4 for Machine Learning為機器學習和數據科學提供了一個現成的環境Databricks Runtime 5.4(不支持).Databricks Runtime ML包含許多流行的機器學習庫,包括TensorFlow、PyTorch、Keras和XGBoost。它還支持使用Horovod進行分布式深度學習訓練。

有關更多信息,包括創建Databricks Runtime ML集群的說明,請參見用於機器學習的Databricks運行時

新功能

Databricks Runtime 5.4 ML構建在Databricks Runtime 5.4之上。有關Databricks Runtime 5.4中新增內容的信息,請參見Databricks Runtime 5.4(不支持)發行說明。

除了庫更新, Databricks Runtime 5.4 ML引入了以下新特性:

分布式Hyperopt +自動化MLflow跟蹤

Databricks Runtime 5.4 ML引入了HyperoptApache火花擴展和簡化超參數調優。一個新的試用SparkTrials實現了使用Apache Spark在多台機器和節點之間分發Hyperopt試運行。此外,所有調優實驗,以及調優的超參數和目標指標,都會自動記錄到MLflow運行.看到利用scikit-learn和MLflow並行化超參數調優

預覽

此功能已在公共預覽

Apache火花MLlib+自動MLflow跟蹤

Databricks Runtime 5.4 ML支持自動日誌記錄MLflow運行為模型擬合使用PySpark調優算法CrossValidator而且TrainValidationSplit.看到Apache Spark MLlib和自動ml流跟蹤.該特性在Databricks Runtime 5.4 ML中默認是打開的,但在Databricks Runtime 5.3 ML中默認是關閉的。

預覽

此功能已在公共預覽

HorovodRunner改進

從Horovod發送到Spark驅動程序節點的輸出現在可以在筆記本單元格中看到。

XGBoost Python包更新

XGBoost Python包0.80安裝。

請注意

Databricks Runtime 5.4包含一個新的FUSE掛載,針對數據加載、模型檢查點和從每個工作者到共享存儲位置的日誌記錄進行了優化文件:/ dbfs /毫升,為深度學習工作負載提供高性能I/O。看到加載數據

係統環境

Databricks Runtime 5.4 ML的係統環境與Databricks Runtime 5.4的不同之處如下:

  • PythonPython 2集群為2.7.15,Python 3集群為3.6.5。

  • DBUtils: Databricks Runtime 5.4 ML中不包含庫工具(dbutils.library)

  • 對於GPU集群,NVIDIA GPU庫如下:

    • 396.44特斯拉的司機

    • CUDA 9.2

    • CUDNN 7.2.1

以下部分列出了Databricks Runtime 5.4 ML中包含的與Databricks Runtime 5.4中包含的不同的庫。

頂級庫

Databricks Runtime 5.4 ML包含以下頂層

Python庫

Databricks Runtime 5.4 ML使用Conda進行Python包管理。因此,與Databricks Runtime相比,安裝的Python庫有很大的不同。下麵是使用Conda包管理器安裝的Python包和版本的完整列表。

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

是0.7.1

argparse

1.4.0

asn1crypto

0.24.0

阿斯特

是0.7.1

backports-abc

0.5

backports.functools-lru-cache

1.5

backports.weakref

1.0.post1

bcrypt

3.1.6

漂白劑

2.1.3

寶途

2.48.0

boto3

1.7.62

botocore

1.10.62

certifi

2018.04.16

cffi

1.11.5

chardet

3.0.4

cloudpickle

0.5.3

彩色光

0.3.9

configparser

3.5.0

密碼學

2.2.2

周期計

0.10.0

Cython

0.28.2

裝飾

4.3.0

docutils

0.14

entrypoints

0.2.3

enum34

1.1.6

et-xmlfile

1.0.1

funcsigs

1.0.2中

functools32

3.2.3-2

fusepy

2.0.4

未來

0.17.1

期貨

3.2.0

使驚訝

0.2.2

grpcio

1.12.1

h5py

2.8.0

horovod

0.16.0

html5lib

1.0.1

hyperopt

0.1.2.db4

idna

2.6

ipaddress

1.0.22

ipython

5.7.0

ipython_genutils

0.2.0

jdcal

1.4

Jinja2

2.10

jmespath

0.9.4

jsonschema

2.6.0

jupyter-client

5.2.3

jupyter-core

4.4.0

Keras

2.2.4

Keras-Applications

1.0.7

Keras-Preprocessing

1.0.9

kiwisolver

1.1.0

linecache2

1.0.0

llvmlite

0.23.1

lxml

4.2.1

減價

3.1.1

MarkupSafe

1.0

matplotlib

2.2.2

使走調

0.8.3

mkl-fft

1.0.0

mkl-random

1.0.1

mleap

0.8.1

模擬

2.0.0

msgpack

0.5.6

nbconvert

5.3.1

nbformat

4.4.0

networkx

2.2

鼻子

1.3.7

nose-exclude

0.5.0

numba

0.38.0 + 0. g2a2b772fc.dirty

numpy

1.14.3

olefile

0.45.1

openpyxl

2.5.3

熊貓

0.23.0

pandocfilters

1.4.2

paramiko

2.4.1

pathlib2

2.3.2

容易受騙的人

0.5.0

pbr

5.1.3

pexpect

4.5.0

pickleshare

0.7.4

枕頭

5.1.0

皮普

10.0.1

厚度

3.11

prompt-toolkit

1.0.15

protobuf

3.7.1

psutil

5.6.2

psycopg2

2.7.5

ptyprocess

0.5.2

pyarrow

0.12.1

pyasn1

0.4.5

pycparser

2.18

Pygments

2.2.0

pymongo

3.8.0

PyNaCl

1.3.0

pyOpenSSL

18.0.0

pyparsing

2.2.0

PySocks

1.6.8

Python

2.7.15

python-dateutil

2.7.3

pytz

2018.4

PyYAML

5.1

pyzmq

17.0.0

請求

2.18.4

s3transfer

0.1.13

scandir

1.7

scikit-learn

0.19.1

scipy

1.1.0

seaborn

0.8.1

setuptools

39.1.0

simplegeneric

0.8.1

singledispatch

3.4.0.3

六個

1.11.0

statsmodels

0.9.0

subprocess32

3.5.4

tensorboard

1.12.2

tensorboardX

1.6

tensorflow

1.12.0

termcolor

1.1.0

testpath

0.3.1

火炬

0.4.1

torchvision

0.2.1

龍卷風

正式

tqdm

4.32.1

traceback2

1.4.0

traitlets

4.3.2

unittest2

1.1.0

urllib3

1.22

virtualenv

16.0.0

wcwidth

0.1.7

webencodings

0.5.1

Werkzeug

0.14.1

0.31.1

打包

1.10.11

wsgiref

0.1.2

此外,以下Spark包還包含Python模塊:

火花包

Python模塊

版本

graphframes

graphframes

0.7.0-db1-spark2.4

spark-deep-learning

sparkdl

1.5.0-db3-spark2.4

tensorframes

tensorframes

0.6.0-s_2.11

Java和Scala庫(Scala 2.11集群)

除了Databricks Runtime 5.4中的Java和Scala庫之外,Databricks Runtime 5.4 ML還包含以下jar:

組ID

工件ID

版本

com.databricks

spark-deep-learning

1.5.0-db3-spark2.4

com.typesafe.akka

akka-actor_2.11

2.3.11

ml.combust.mleap

mleap-databricks-runtime_2.11

0.13.0

ml.dmlc

xgboost4j

0.81

ml.dmlc

xgboost4j-spark

0.81

org.graphframes

graphframes_2.11

0.7.0-db1-spark2.4

org.tensorflow

libtensorflow

1.12.0

org.tensorflow

libtensorflow_jni

1.12.0

org.tensorflow

spark-tensorflow-connector_2.11

1.12.0

org.tensorflow

tensorflow

1.12.0

org.tensorframes

tensorframes

0.6.0-s_2.11