你好,我嚐試使用磚平台pytorch分布式訓練,但是我沒有找到任何信息關Beplay体育安卓版本於這個。我期望的是使用多個集群使用pytorch分布式數據並行運行一個共同的工作(DDP)與下麵的代碼:
在設備1:% python - m torch.distributed sh。啟動——nproc_per_node = 4 nnodes = 2——node_rank = 0 master_addr train_something.py =“127.0.0.1”——master_port = 29500
在設備2:% python - m torch.distributed sh。啟動——nproc_per_node = 4 nnodes = 2——node_rank = 1——master_addr train_something.py =“127.0.0.1”——master_port = 29500
這絕對是支持的其他計算平台如粘,很多,但失敗的磚。Beplay体育安卓版本你能讓我知道你是否支持這個嗎?否則你會考慮為後來的發展添加這個功能。提前謝謝你!
@Shaomu譚,你能檢查sparktorch嗎?
磚集群上的並行處理主要是基於Apache引發™。所以使用並行處理,圖書館的問題(PyTorch)編寫的火花。火花火炬試圖做到這一點。
你也可以磚上運行Apache射線或Dask(我認為這是可能的),所以繞過Apache火花