機器學習運行時

準備使用和優化的機器學習環境

機器學習運行時(MLR)為數據科學家和ML實踐者提供了可伸縮的集群,其中包括流行的框架、內置的AutoML和無與倫比的性能優化。

好處

框架的選擇

ML框架正以瘋狂的速度發展,從業者平均需要管理8個庫。ML運行時提供了一鍵式訪問最流行的ML框架的可靠和性能分布,並通過預構建的容器或Conda自定義ML環境。

增強機器學習

使用內置的AutoML功能,包括超參數調優和使用Hyperopt和MLflow的模型搜索,加速機器從數據準備到推理的學習。

簡化縮放

通過自動管理和可伸縮的集群基礎設施,輕鬆地從小數據到大數據。機器學習運行時還包括對最流行的算法以及HorovodRunner的獨特性能改進,HorovodRunner是一個用於分布式深度學習的簡單API。

特性

框架的選擇

Conda管理運行時:受益於Python包管理的Conda集成。所有Python包都安裝在一個環境中。

毫升框架:最流行的ML庫和框架是開箱即用的,包括TensorFlow, Keras, PyTorch, MLflow, Horovod, GraphFrames, scikit-learn, XGboost, numpy, MLeap和Pandas。

增強毫升

自動化實驗跟蹤:使用開源或托管MLflow和並行坐標繪圖特性跟蹤、比較和可視化數十萬個實驗。

自動模型搜索(單節點ML):通過增強的Hyperopt和自動跟蹤MLflow,優化和分布式跨多個模型架構的條件超參數搜索。

單節點機器學習的自動超參數調優:優化和分布式超參數搜索,增強Hyperopt和自動跟蹤MLflow。

分布式機器學習的自動超參數調優:深度集成PySpark MLlib的交叉驗證,自動跟蹤MLlib在MLflow中的實驗。

優化簡化縮放

優化TensorFlow:受益於GPU集群上TensorFlow cuda優化版本,獲得最大性能。

HorovodRunner:快速遷移你的單節點深度學習訓練代碼,使用HorovodRunner在Databricks集群上運行,HorovodRunner是一個簡單的API,它抽象了使用Horovod進行分布式訓練時所麵臨的複雜情況。

優化的MLlib邏輯回歸和樹分類器:最流行的評估器已經作為ML Databricks Runtime的一部分進行了優化,與Apache Spark 2.4.0相比,它提供了高達40%的速度提升。

優化GraphFrames:運行GraphFrames速度提高2-4倍,Graph查詢速度提高100倍,這取決於工作負載和數據傾斜。

深度學習負載優化存儲:在以下方麵利用高性能解決方案AzureAWS對於數據加載和模型檢查點,這兩者都是深度學習訓練工作負載的關鍵。

它是如何工作的

機器學習運行時構建在每一個Databricks運行時版本的基礎上。它通常適用於所有Databricks產品,包括:Azure Databricks、AWS雲、GPU集群和CPU集群。

要使用ML運行時,隻需在創建集群時選擇運行時的ML版本。

客戶的故事

觀看Spark+AI峰會演講

簡化星巴克用於快速圖像分類的分布式TensorFlow訓練

準備好開始了嗎?


遵循快速入門指南

Baidu
map