解決:torch.cuda。OutOfMemoryError: CUDA -磚- 9651的內存

桑傑 · ‎02-09-2023

你好,

我用pynote /耳語大型模型,試圖使用火花UDF過程數據和跟蹤誤差。

torch.cuda。OutOfMemoryError: CUDA的內存。試圖分配172.00 MiB (GPU 0;14.76鑲條總容量;6.07直布羅陀海峽已經分配;120.75 MiB自由;總共6.25鑲條保留PyTorch)如果> >保留內存分配的內存設置max_split_size_mb避免碎片。為內存管理和PYTORCH_CUDA_ALLOC_CONF見文檔

工作是配置了11.3 LTS與1 - 8毫升G4dn的實例。4超大集群。

感激如果你能提供任何的幫助。

問候,

桑傑

匿名 · ‎03-08-2023

@Sanjay耆那教的:

錯誤消息顯示,沒有足夠的可用內存的GPU分配PyTorch模型。這個錯誤可能發生如果模型太大了,適合GPU的可用內存,或者如果GPU內存被其他進程除了PyTorch模型。

你可以嚐試實現下麵,看看有什麼適合你

你能試著蠻力的方法和更多的內存增加實例類型嗎
盡量減少使用的批量大小PyTorch模型。小批量大小在GPU將需要更少的內存,並可能有助於避免內存溢出錯誤。你可以嚐試不同的批處理大小之間找到最優的權衡模型的性能和內存使用
嚐試max_split_size_mb設置為一個較小的值,以避免碎片
在PyTorch DataParallel模塊,它允許您跨多個gpu分發模型。這將有助於在運行PyTorch模型在多個gpu並行執行

我希望這些建議幫助!

在原帖子查看解決方案

匿名 · ‎03-08-2023

@Sanjay耆那教的:

錯誤消息顯示,沒有足夠的可用內存的GPU分配PyTorch模型。這個錯誤可能發生如果模型太大了,適合GPU的可用內存,或者如果GPU內存被其他進程除了PyTorch模型。

你可以嚐試實現下麵,看看有什麼適合你

你能試著蠻力的方法和更多的內存增加實例類型嗎
盡量減少使用的批量大小PyTorch模型。小批量大小在GPU將需要更少的內存,並可能有助於避免內存溢出錯誤。你可以嚐試不同的批處理大小之間找到最優的權衡模型的性能和內存使用
嚐試max_split_size_mb設置為一個較小的值,以避免碎片
在PyTorch DataParallel模塊,它允許您跨多個gpu分發模型。這將有助於在運行PyTorch模型在多個gpu並行執行

我希望這些建議幫助!