PyTorch使用共享內存來有效地共享其dataloader工人之間的張量和它的主要過程。然而在一個碼頭工人容器的默認大小共享內存(tmpfs文件係統安裝在/dev/shm)是64 mb,使用哪個太小分享圖片張量批次。這意味著當磚集群上使用一個定製的碼頭工人的形象是不可能使用與多個dataloaders PyTorch。我們可以解決這個問題通過設置“——shm-size”或“——ipc =主機”參數“碼頭工人跑”——這是如何設置在一個磚集群?
注意,這並不影響默認磚運行時看起來是使用linux默認的一半/dev/shm - 6.9 gb的物理RAM可用Standard_DS3_v2節點我測試。
繁殖:開始一個集群使用一個定製的碼頭工人形象,運行df - h /dev/shm的筆記本。
提前謝謝!