用於機器學習的Databricks運行時5.4(不支持)
Databricks在2019年6月發布了這張圖片。
Databricks Runtime 5.4 for Machine Learning為機器學習和數據科學提供了一個現成的環境Databricks Runtime 5.4(不支持).Databricks Runtime ML包含許多流行的機器學習庫,包括TensorFlow、PyTorch、Keras和XGBoost。它還支持使用Horovod進行分布式深度學習訓練。
有關更多信息,包括創建Databricks Runtime ML集群的說明,請參見用於機器學習的Databricks運行時.
新功能
Databricks Runtime 5.4 ML構建在Databricks Runtime 5.4之上。有關Databricks Runtime 5.4中新增內容的信息,請參見Databricks Runtime 5.4(不支持)發行說明。
除了庫更新, Databricks Runtime 5.4 ML引入了以下新特性:
分布式Hyperopt +自動化MLflow跟蹤
Databricks Runtime 5.4 ML引入了Hyperopt由Apache火花擴展和簡化超參數調優。一個新的試用
類SparkTrials
實現了使用Apache Spark在多台機器和節點之間分發Hyperopt試運行。此外,所有調優實驗,以及調優的超參數和目標指標,都會自動記錄到MLflow運行.看到利用scikit-learn和MLflow並行化超參數調優.
預覽
此功能已在公共預覽.
Apache火花MLlib+自動MLflow跟蹤
Databricks Runtime 5.4 ML支持自動日誌記錄MLflow運行為模型擬合使用PySpark調優算法CrossValidator
而且TrainValidationSplit
.看到Apache Spark MLlib和自動ml流跟蹤.該特性在Databricks Runtime 5.4 ML中默認是打開的,但在Databricks Runtime 5.3 ML中默認是關閉的。
預覽
此功能已在公共預覽.
HorovodRunner改進
從Horovod發送到Spark驅動程序節點的輸出現在可以在筆記本單元格中看到。
XGBoost Python包更新
XGBoost Python包0.80安裝。
請注意
Databricks Runtime 5.4包含一個新的FUSE掛載,針對數據加載、模型檢查點和從每個工作者到共享存儲位置的日誌記錄進行了優化文件:/ dbfs /毫升
,為深度學習工作負載提供高性能I/O。看到加載數據.
係統環境
Databricks Runtime 5.4 ML的係統環境與Databricks Runtime 5.4的不同之處如下:
PythonPython 2集群為2.7.15,Python 3集群為3.6.5。
DBUtils: Databricks Runtime 5.4 ML中不包含庫工具(dbutils.library).
對於GPU集群,NVIDIA GPU庫如下:
396.44特斯拉的司機
CUDA 9.2
CUDNN 7.2.1
庫
以下部分列出了Databricks Runtime 5.4 ML中包含的與Databricks Runtime 5.4中包含的不同的庫。
頂級庫
Databricks Runtime 5.4 ML包含以下頂層庫:
Python庫
Databricks Runtime 5.4 ML使用Conda進行Python包管理。因此,與Databricks Runtime相比,安裝的Python庫有很大的不同。下麵是使用Conda包管理器安裝的Python包和版本的完整列表。
圖書館 |
版本 |
圖書館 |
版本 |
圖書館 |
版本 |
---|---|---|---|---|---|
absl-py |
是0.7.1 |
argparse |
1.4.0 |
asn1crypto |
0.24.0 |
阿斯特 |
是0.7.1 |
backports-abc |
0.5 |
backports.functools-lru-cache |
1.5 |
backports.weakref |
1.0.post1 |
bcrypt |
3.1.6 |
漂白劑 |
2.1.3 |
寶途 |
2.48.0 |
boto3 |
1.7.62 |
botocore |
1.10.62 |
certifi |
2018.04.16 |
cffi |
1.11.5 |
chardet |
3.0.4 |
cloudpickle |
0.5.3 |
彩色光 |
0.3.9 |
configparser |
3.5.0 |
密碼學 |
2.2.2 |
周期計 |
0.10.0 |
Cython |
0.28.2 |
裝飾 |
4.3.0 |
docutils |
0.14 |
entrypoints |
0.2.3 |
enum34 |
1.1.6 |
et-xmlfile |
1.0.1 |
funcsigs |
1.0.2中 |
functools32 |
3.2.3-2 |
fusepy |
2.0.4 |
未來 |
0.17.1 |
期貨 |
3.2.0 |
使驚訝 |
0.2.2 |
grpcio |
1.12.1 |
h5py |
2.8.0 |
horovod |
0.16.0 |
html5lib |
1.0.1 |
hyperopt |
0.1.2.db4 |
idna |
2.6 |
ipaddress |
1.0.22 |
ipython |
5.7.0 |
ipython_genutils |
0.2.0 |
jdcal |
1.4 |
Jinja2 |
2.10 |
jmespath |
0.9.4 |
jsonschema |
2.6.0 |
jupyter-client |
5.2.3 |
jupyter-core |
4.4.0 |
Keras |
2.2.4 |
Keras-Applications |
1.0.7 |
Keras-Preprocessing |
1.0.9 |
kiwisolver |
1.1.0 |
linecache2 |
1.0.0 |
llvmlite |
0.23.1 |
lxml |
4.2.1 |
減價 |
3.1.1 |
MarkupSafe |
1.0 |
matplotlib |
2.2.2 |
使走調 |
0.8.3 |
mkl-fft |
1.0.0 |
mkl-random |
1.0.1 |
mleap |
0.8.1 |
模擬 |
2.0.0 |
msgpack |
0.5.6 |
nbconvert |
5.3.1 |
nbformat |
4.4.0 |
networkx |
2.2 |
鼻子 |
1.3.7 |
nose-exclude |
0.5.0 |
numba |
0.38.0 + 0. g2a2b772fc.dirty |
numpy |
1.14.3 |
olefile |
0.45.1 |
openpyxl |
2.5.3 |
熊貓 |
0.23.0 |
pandocfilters |
1.4.2 |
paramiko |
2.4.1 |
pathlib2 |
2.3.2 |
容易受騙的人 |
0.5.0 |
pbr |
5.1.3 |
pexpect |
4.5.0 |
pickleshare |
0.7.4 |
枕頭 |
5.1.0 |
皮普 |
10.0.1 |
厚度 |
3.11 |
prompt-toolkit |
1.0.15 |
protobuf |
3.7.1 |
psutil |
5.6.2 |
psycopg2 |
2.7.5 |
ptyprocess |
0.5.2 |
pyarrow |
0.12.1 |
pyasn1 |
0.4.5 |
pycparser |
2.18 |
Pygments |
2.2.0 |
pymongo |
3.8.0 |
PyNaCl |
1.3.0 |
pyOpenSSL |
18.0.0 |
pyparsing |
2.2.0 |
PySocks |
1.6.8 |
Python |
2.7.15 |
python-dateutil |
2.7.3 |
pytz |
2018.4 |
PyYAML |
5.1 |
pyzmq |
17.0.0 |
請求 |
2.18.4 |
s3transfer |
0.1.13 |
scandir |
1.7 |
scikit-learn |
0.19.1 |
scipy |
1.1.0 |
seaborn |
0.8.1 |
setuptools |
39.1.0 |
simplegeneric |
0.8.1 |
singledispatch |
3.4.0.3 |
六個 |
1.11.0 |
statsmodels |
0.9.0 |
subprocess32 |
3.5.4 |
tensorboard |
1.12.2 |
tensorboardX |
1.6 |
tensorflow |
1.12.0 |
termcolor |
1.1.0 |
testpath |
0.3.1 |
火炬 |
0.4.1 |
torchvision |
0.2.1 |
龍卷風 |
正式 |
tqdm |
4.32.1 |
traceback2 |
1.4.0 |
traitlets |
4.3.2 |
unittest2 |
1.1.0 |
urllib3 |
1.22 |
virtualenv |
16.0.0 |
wcwidth |
0.1.7 |
webencodings |
0.5.1 |
Werkzeug |
0.14.1 |
輪 |
0.31.1 |
打包 |
1.10.11 |
wsgiref |
0.1.2 |
此外,以下Spark包還包含Python模塊:
火花包 |
Python模塊 |
版本 |
---|---|---|
graphframes |
graphframes |
0.7.0-db1-spark2.4 |
spark-deep-learning |
sparkdl |
1.5.0-db3-spark2.4 |
tensorframes |
tensorframes |
0.6.0-s_2.11 |
Java和Scala庫(Scala 2.11集群)
除了Databricks Runtime 5.4中的Java和Scala庫之外,Databricks Runtime 5.4 ML還包含以下jar:
組ID |
工件ID |
版本 |
---|---|---|
com.databricks |
spark-deep-learning |
1.5.0-db3-spark2.4 |
com.typesafe.akka |
akka-actor_2.11 |
2.3.11 |
ml.combust.mleap |
mleap-databricks-runtime_2.11 |
0.13.0 |
ml.dmlc |
xgboost4j |
0.81 |
ml.dmlc |
xgboost4j-spark |
0.81 |
org.graphframes |
graphframes_2.11 |
0.7.0-db1-spark2.4 |
org.tensorflow |
libtensorflow |
1.12.0 |
org.tensorflow |
libtensorflow_jni |
1.12.0 |
org.tensorflow |
spark-tensorflow-connector_2.11 |
1.12.0 |
org.tensorflow |
tensorflow |
1.12.0 |
org.tensorframes |
tensorframes |
0.6.0-s_2.11 |