再保險:CUDA -磚- 38052的內存

gary7135 · 3周之前

我嚐試新的元LLama2模式。

磚後提供筆記本的例子:https://github.com/databricks/databricks-ml-examples/blob/master/llm-models/llamav2/llamav2-13b/01_l..。

我越來越CUDA的內存。我的GPU集群運行時

13.2毫升(包括Apache火花3.4.0,GPU, Scala 2.12), 1 256 gb內存和GPU

錯誤信息:

CUDA的記憶。試圖分配314.00 MiB (GPU 0;14.76鑲條總容量;13.50直布羅陀海峽已經分配;313.75 MiB自由;總共13.51鑲條保留PyTorch)如果> >保留內存分配的內存設置max_split_size_mb避免碎片。為內存管理和PYTORCH_CUDA_ALLOC_CONF見文檔

什麼將會是一個好辦法解決這個問題嗎?