取消
顯示的結果
而不是尋找
你的意思是:

培訓模型大或小集群

akc
新的貢獻者三世

我有一個工作流模型火車每個星期天在Azure磚。有時工作流失敗的最大等待時間超過(目前我用1200秒)。解決這個問題我想增加等待時間或增加集群的大小使用。

這使我懷疑,這是更好的(便宜)下麵的兩個選項:

  1. 火車模型在一個更大、更昂貴的集群將希望減少使用的時間
  2. 更小的和更便宜的集群上火車模型,然後簡單地增加等待時間

或有第三和更好的解決方案嗎?

1接受解決方案

接受的解決方案

luis_herrera
貢獻者

´會需要玩這兩個選項,但是,由於初始迭代訓練機器學習模型往往實驗,一個更小的集群是一個不錯的選擇。更小的集群也將減少震蕩的影響。建議工人類型存儲優化三角洲緩存啟用占重複讀取相同的數據和訓練數據啟用高速緩存。如果提供的計算和存儲選項storage-optimized節點是不夠的,考慮GPU-optimized節點。一個可能的缺點是缺乏三角洲與這些節點緩存支持。

而且,如果你在談論訓練深度學習模型,檢查最佳實踐,如果您使用的是PyTorch,新的。TorchDistributor。

https://learn.microsoft.com/en-us/azure/databricks/machine-learning/train-model/dl-best-practices

PS;檢查# DAIS2023會談,PyTorch的創造者是主題

在原帖子查看解決方案

3回複3

Priyag1
尊敬的貢獻者二世

是否增加或減少集群的大小可以幫助這個過程嗎?

luis_herrera
貢獻者

´會需要玩這兩個選項,但是,由於初始迭代訓練機器學習模型往往實驗,一個更小的集群是一個不錯的選擇。更小的集群也將減少震蕩的影響。建議工人類型存儲優化三角洲緩存啟用占重複讀取相同的數據和訓練數據啟用高速緩存。如果提供的計算和存儲選項storage-optimized節點是不夠的,考慮GPU-optimized節點。一個可能的缺點是缺乏三角洲與這些節點緩存支持。

而且,如果你在談論訓練深度學習模型,檢查最佳實踐,如果您使用的是PyTorch,新的。TorchDistributor。

https://learn.microsoft.com/en-us/azure/databricks/machine-learning/train-model/dl-best-practices

PS;檢查# DAIS2023會談,PyTorch的創造者是主題

Vidula_Khanna
主持人
主持人

嗨@Andreas Kaae

謝謝你發布你的問題在我們的社區!我們很高興幫助你。

幫助我們為您提供最準確的信息,請您花一些時間來回顧反應和選擇一個最好的回答了你的問題嗎?

這也將有助於其他社區成員可能也有類似的問題在未來。謝謝你的參與,讓我們知道如果你需要任何進一步的援助!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map