分布式深度學習簡單的步驟:按需網絡研討會和FAQ現在可用!
2019年3月11日, 在產品
2月12日,我們舉辦了一個研討會簡單的步驟在磚分布深度學習——一帆曹、高級產品經理、機器學習和勃固Amirbekian,機器學習軟件工程師在磚。
在這個網絡研討會中,我們介紹一些最新的創新帶入磚統一分析平台的機器學習,特別是分布式深度學習。Beplay体育安卓版本
特別是,我們討論過:
- 分布式深度學習如何工作和現有框架,特別是Horovod。
- 磚是如何方便數據科學家的單機工作負載遷移到分布式工作負載,在深入學習項目的所有階段。
- 演示分布式深度學習培訓使用我們最新的一些功能,包括機器學習和HorovodRunner磚運行時。
我們從數據準備演示這些概念模型構建和推理,使用Keras (TensorFlow端),Horovod, TensorBoard, PySpark磚,這是我們今天的筆記本開始鏈接:
如果你想免費獲取磚統一分析平台Beplay体育安卓版本並嚐試我們的筆記本,你可以訪問在這裏免費試用。
到最後,我們舉行了一個問答環節,下麵是問題和答案。
問:根據你與你的客戶合作的經驗,你認為采用分布式DL的最大挑戰?beplay体育app下载地址
我們看到了兩種類型的挑戰,基於我們的經驗:組織和技術。
組織上,我們大部分的企業客戶在采用深度學習。beplay体育app下载地址這些早期的采用者專注於探索用例和證明樣本數據集的業務價值。對於這些客戶已經證明beplay体育app下载地址了商業價值,幾乎在每一個案例中,他們正在尋找一個可伸縮的分布式深度學習和易於使用的解決方案。我們希望越來越多的客戶尋找分布式DL的解決方案,因為他們beplay体育app下载地址相當數量的企業客戶開始深度學習計劃在最近1 - 2年。
在技術方麵,我們通常看到分布式DL三種類型的問題。首先,許多客戶詢問數據Ibeplay体育app下载地址 / O在訓練。我們建議客戶對原始數據進行預處理和beplay体育app下载地址保存持久性存儲,然後使用高性能保險絲山(見我們的出版解決方案)培訓期間訪問數據。第二,許多分布式DL的解決方案往往是低層次的,而不是可伸縮。我們建立了HorovodRunner關注易用性和可擴展性,實現性能與單節點等值DL培訓。最後,調優性能變得日益重要,權衡不同在一個分布式環境。例如,一個用戶可能喜歡一個較小的網絡與正規化小於一個大網絡高正則化性能。我們正在想辦法使它容易和有效的為我們的用戶優化分布式DL模型。
問:關於Tensorflow / Keras訪問Blob / S3通過掛載點:沒有安裝可以攝取數據?例如,如果我的數據不是在一個蔚藍的容器,這將是一個具有挑戰性的blob山/容器。
是的,它可以讀取數據直接從團/ S3沒有安裝。然而,讀和寫吞吐量不會那麼好山,是高性能數據訪問優化,為分布式DL訓練是很重要的。
問:你如何選擇參數模型,步驟一樣,時代,等等?
等參數模型架構、批量大小和學習速率往往對DL培訓模式性能有重要的影響。時代通常並不重要,隻要用戶運行足夠的時代和模型性能感到滿意。
你可以看我們的深度學習基礎係列要學習更多的知識。
問:什麼是DBFS的大小限製嗎?
DBFS S3是一個優化的接口。所以,它繼承了相同的限製使用S3。每個S3常見問題解答,總可以存儲的對象的數量是無限的,和單個對象的範圍可以從0到5 tb大小。
問:由於並行效率損失有多少?(多少收斂所需CPU時間?)
擴展效率取決於幾個因素,包括模型結構和參數。效率損失是由於整個分布式網絡通信開銷在模型訓練。在我們的測試中使用HorovodRunner擴展效率,平均規模效率為70 - 80%。
問:如何加載Keras深學習模型在Apache火花集群工人而不是司機,以及如何評分模型使用的工人嗎?
我們建議使用MLflow加載和部署模型。你可以找到的細節在這裏。
問:MPI命令是什麼意思?
MPI是一個標準的界麵分布的工人之間的溝通。MPI的實現一直是在高性能計算環境中使用。開源Horovod使用mpi實現。HorovodRunner的一個主要好處是,它抽象複雜的MPI的執行命令。與HorovodRunner,用戶不需要知道mpi和仍然可以分發DL培訓。