跳轉到主要內容
工程的博客

增強與磚Hyperparameter調優和優化的AWS存儲運行時5.4毫升

分享這篇文章

我們興奮地宣布釋放磚運行時5.4毫升(Azure|AWS)。這個版本包括兩個公共預覽功能來提高數據科學生產力,優化存儲在AWS為開發分布式應用程序,和許多Python庫升級。

開始時,隻需從下拉列表中選擇磚運行時的5.4毫升磚當您創建一個新的集群。

磚運行時機器學習,5.4版
磚運行時機器學習,5.4版

公共預覽:分布式Hyperopt +自動MLflow跟蹤

Hyperparameter調優是一種常見的技術來優化基於hyperparameters機器學習模型,在模型或參數不學習培訓。然而,hyperparameter調優的一個主要挑戰是,它可以計算昂貴和緩慢。

Hyperopt是一個流行的開源hyperparameter調優庫與強大的社會支持(600000 + PyPI下載,3300 +明星Github截至2019年5月)。數據科學家像Hyperopt因其簡單性和有效性。Hyperopt提供了兩種優化算法:隨機搜索和Parzen估計的貝葉斯方法樹,提供改善計算效率比蠻力方法,如網格搜索。然而,分發Hyperopt以前沒有工作所需的盒子和手冊設置

在磚運行時的5.4毫升,我們介紹一個實現Hyperopt由Apache火花。使用一個新的試驗類SparkTrials,您可以輕鬆地分發Hyperopt運行不作任何更改當前Hyperopt api。你隻需要通過的SparkTrials類在應用hyperopt.fmin函數(參見下麵的示例代碼)。此外,所有優化實驗,以及調諧hyperparameters和有針對性的指標,會自動記錄到MLflow磚。有了這個特性,我們的目標是提高效率,可伸縮性和簡單進行hyperparameter調優時。

這個功能現在公共預覽,我們鼓勵磚客戶試試。beplay体育app下载地址您可以了解更多關於特性的文檔(Azure|AWS)部分。

#新SparkTrials類分配調優< b > spark_trials = SparkTrials(並行=24)< / b >
              fmin (fn =火車,#方法訓練和評估模型空間= search_space,#定義hyperparameters空間算法= tpe.suggest,#搜索算法:樹Parzen估計max_evals =8,# hyperparameter設置嚐試show_progressbar =,
              試驗= < b > spark_trials < / b >)

在磚,我們擁抱開源社區和api。我們正在與Hyperopt社區貢獻這個Spark-powered實現開源Hyperopt。請繼續關注。

公共預覽:MLlib +自動MLflow跟蹤

磚運行時支持自動記錄的5.4和5.4毫升MLflow運行模型訓練使用PySpark MLlib優化算法CrossValidatorTrainValidationSplit。這個功能之前,如果你想跟蹤PySpark MLlib交叉驗證或MLflow調優,你必須明確MLflow磚筆記本的API調用。與MLflow-MLlib集成,當你調整hyperparameters通過運行CrossValidatorTrainValidationSplit、參數和評價指標將自動記錄到MLflow。你可以檢查在MLflow調優如何影響評價指標。

https://www.youtube.com/watch?v=DFn3hS-s7OA

這個功能現在公共預覽。我們鼓勵磚用戶試一下(Azure|AWS)。

默認的優化融合山在AWS上

磚運行時基本FUSE客戶機DBFS當地的一個分布式文件係統安裝在磚集群。這個功能已經非常受歡迎,因為它允許本地訪問遠程存儲。然而,前麵的實現不允許足夠快開發分布式深度學習應用程序所需的數據訪問。

在磚5.4運行時,磚在AWS現在提供了一個優化的保險絲默認安裝。您現在可以在培訓和高性能數據訪問推理沒有應用init腳本。數據存儲在dbfs: /毫升和本地訪問文件:/ dbfs /毫升現在支持這種優化的融合。如果你正在運行一個磚運行時版本5.4之前,你可以跟隨我們指令安裝一個高性能的第三方客戶端融合。

我們介紹了默認的優化融合Azure磚的山磚5.3運行時。通過它可以在相同的文件夾名稱,我們在Azure和AWS平台功能實現平價。Beplay体育安卓版本

在即將到來的幾個月裏,我們計劃提高DBFS FUSE客戶機數據科學家們希望他們如何訪問數據的靈活性。

顯示HorovodRunner訓練日誌

在過去我們介紹HorovodRunner,一種簡單的方式來分發深度學習培訓工作負載在磚。磚運行時5.4毫升的改善用戶體驗通過顯示HorovodRunner訓練日誌數據磚筆記本電池。為了審查培訓日誌,以便更好的理解優化進展,您不再需要通過執行器日誌下火花UI (Azure|AWS)。現在,HorovodRunner工作正在執行,培訓記錄將自動收集司機節點並顯示在筆記本電池。你可以學到更多在我們的文檔(Azure|AWS)。

其他庫更新

我們更新以下圖書館磚運行時5.4 ML:

  • 0.80預裝XGBoost Python包。
  • 撞從3.5.2 3.6.0 r-base版本。
  • 我們發布指令(Azure|AWS)安裝TensorFlow 1.13和2.0 - alpha磚運行時毫升

閱讀更多

免費試著磚
看到所有工程的博客的帖子
Baidu
map