取消
顯示的結果
而不是尋找
你的意思是:

磚是否支持多種設備Pytorch分布式訓練嗎?

Smu_Tan
新的因素

你好,我嚐試使用磚平台pytorch分布式訓練,但是我沒有找到任何信息關Beplay体育安卓版本於這個。我期望的是使用多個集群使用pytorch分布式數據並行運行一個共同的工作(DDP)與下麵的代碼:

在設備1:% python - m torch.distributed sh。啟動——nproc_per_node = 4 nnodes = 2——node_rank = 0 master_addr train_something.py =“127.0.0.1”——master_port = 29500

在設備2:% python - m torch.distributed sh。啟動——nproc_per_node = 4 nnodes = 2——node_rank = 1——master_addr train_something.py =“127.0.0.1”——master_port = 29500

這絕對是支持的其他計算平台如粘,很多,但失敗的磚。Beplay体育安卓版本你能讓我知道你是否支持這個嗎?否則你會考慮為後來的發展添加這個功能。提前謝謝你!

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

@Shaomu譚,你能檢查sparktorch嗎?

磚集群上的並行處理主要是基於Apache引發™。所以使用並行處理,圖書館的問題(PyTorch)編寫的火花。火花火炬試圖做到這一點。

你也可以磚上運行Apache射線或Dask(我認為這是可能的),所以繞過Apache火花

在原帖子查看解決方案

3回複3

werners1
尊敬的貢獻者三世

@Shaomu譚,你能檢查sparktorch嗎?

磚集群上的並行處理主要是基於Apache引發™。所以使用並行處理,圖書館的問題(PyTorch)編寫的火花。火花火炬試圖做到這一點。

你也可以磚上運行Apache射線或Dask(我認為這是可能的),所以繞過Apache火花

Kaniz
社區經理
社區經理

嗨@Shaomu Tan,隻是一個友好的後續。你還需要幫助,或@Werner Stinckens’s響應幫助你找到解決方案了嗎?請讓我們知道。

User16783852542
新的貢獻者三世

磚高鈣,HorovodRunner提供支持PyTorch分布式訓練和推理。這裏有一個例子筆記本供您參考:PyTorchDistributedDeepLearningTraining -磚

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map