12-21-202206:47點
我運行一個擁抱在GPU集群(g4dn臉模型。超大,16 gb的內存,4核)。我在四個不同的筆記本電腦運行相同的模型與不同的數據源。我創建了一個工作流運行一個模型。這些筆記本單獨運行很好,但在工作流設置,它給了我一個致命錯誤:Python內核是反應遲鈍(Python程序退出,退出代碼137 (SIGKILL:死亡)。這可能是由一個伯父錯誤引起的。檢查你的命令的內存使用)。
03-27-202302:12我
你可能積累梯度Huggingface模型運行時,這通常會導致內存不足錯誤後一些迭代。如果你用它來推斷,做
用torch.no_grad(): #你應用的代碼模型
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。