機器學習運行時

現成的和優化的機器學習環境

機器學習運行時(MLR)為數據科學家和機器學習從業者提供了可伸縮的集群,其中包括流行的框架、內置的AutoML和無與倫比的性能優化。

好處

框架選擇

ML框架正在以瘋狂的速度發展,從業者平均需要管理8個庫。ML運行時提供了一鍵訪問最流行的ML框架的可靠和性能分布,並通過預先構建的容器自定義ML環境。

增強機器學習

通過內置的AutoML功能,包括使用Hyperopt和MLflow進行超參數調優和模型搜索,加速機器學習,從數據準備到推理。

簡化縮放

使用自動管理和可伸縮的集群基礎設施輕鬆地從小數據到大數據。機器學習運行時還包括對最流行算法的獨特性能改進,以及用於分布式深度學習的簡單API HorovodRunner。

特性

框架選擇

毫升框架:最流行的ML庫和框架都是開箱即用的,包括TensorFlow、Keras、PyTorch、MLflow、Horovod、GraphFrames、scikit-learn、XGboost、numpy、MLeap和Pandas。

增強毫升

自動化實驗跟蹤:使用開源或托管MLflow和並行坐標繪圖功能跟蹤、比較和可視化數十萬個實驗。

自動模型搜索(單節點ML):優化和分布式條件超參數搜索跨多個模型架構,增強Hyperopt和自動跟蹤MLflow。

單節點機器學習的自動超參數調優優化和分布式超參數搜索,增強Hyperopt和自動跟蹤MLflow。

分布式機器學習的自動超參數調優與PySpark MLlib的交叉驗證深度集成,自動跟蹤MLlib實驗中的MLflow。

為簡化縮放而優化

優化TensorFlow:受益於GPU集群上的TensorFlow cuda優化版本,獲得最大性能。

HorovodRunner:快速遷移您的單節點深度學習訓練代碼,使用HorovodRunner在Databricks集群上運行,這是一個簡單的API,可以抽象使用Horovod進行分布式訓練時麵臨的複雜問題。

優化MLlib邏輯回歸和樹分類器:最流行的估計器已經作為Databricks運行時ML的一部分進行了優化,與Apache Spark 2.4.0相比,為您提供高達40%的速度提升。

優化GraphFrames:運行GraphFrames速度提高2-4倍,Graph查詢速度提高100倍,這取決於工作負載和數據傾斜。

深度學習工作負載優化存儲:利用以下高性能解決方案AzureAWS,GCP對於數據加載和模型檢查點,這兩者對於深度學習訓練工作負載都是至關重要的。

工作原理

機器學習運行時是建立在每個Databricks運行時版本之上並更新的。它通常可用於所有Databricks產品,包括:Azure Databricks, AWS雲,GPU集群和CPU集群。

要使用ML運行時,隻需在創建集群時選擇運行時的ML版本。

客戶的故事

觀看Spark+AI峰會演講

簡化分布式TensorFlow訓練用於星巴克的快速圖像分類

準備開始了嗎?


遵循快速入門指南

Baidu
map