我們使用下麵的例子成功創建一個分布式深度學習培訓的筆記本//www.eheci.com/blog/2022/09/07/accelerating-your-deep-learning-pytorch-lightning-databri..。像預期的那樣工作。
我們現在想要運行這個筆記本作為計算工作流任務的工作,基本上運行相同的代碼,但使用磚的工作。這個意外讓我們錯誤:
信息:HorovodRunner:開始訓練。警告:永久“172.17.131.218”(ECDSA)添加到已知的主機列表。警告:永久“172.17.162.215”(ECDSA)添加到已知的主機列表。[1]< stderr >:回溯(最近的電話最後):[1]< stderr >:文件“<字符串>”,1號線,在<模塊> [1]< stderr >: ModuleNotFoundError:沒有模塊命名為“培訓”
的培訓這是小python模塊文件在同一文件夾包含可重用的庫函數。我的猜測是,頂級進口工作節點上執行代碼在筆記本上可能沒有這個文件。但我困惑這是發生的原因:
謝謝你的幫助
嗨@Sergii Ivakhno, DBR版本你運行這個筆記本嗎?
注意:- - - - - -確保創建磚運行時毫升的集群和附加到這個筆記本。(你不能運行這個練習標準磚運行時沒有“毫升。”)
毫升運行時優化深度學習,和所有相關的組件(TensorFlow、Horovod Keras, XGBoost,等等)已經內置。(你不需要自己安裝這些組件。)
內置HorovodRunner毫升運行時幫助Horovod運行在Apache火花™。(Horovod(超級)有一個高效parameter-sharing機製,有利於擴展)。
嗨@Sergii Ivakhno, DBR版本你運行這個筆記本嗎?
注意:- - - - - -確保創建磚運行時毫升的集群和附加到這個筆記本。(你不能運行這個練習標準磚運行時沒有“毫升。”)
毫升運行時優化深度學習,和所有相關的組件(TensorFlow、Horovod Keras, XGBoost,等等)已經內置。(你不需要自己安裝這些組件。)
內置HorovodRunner毫升運行時幫助Horovod運行在Apache火花™。(Horovod(超級)有一個高效parameter-sharing機製,有利於擴展)。