取消
顯示的結果
而不是尋找
你的意思是:

CUDA的記憶

gary7135
新的貢獻者二世

我嚐試新的元LLama2模式。

磚後提供筆記本的例子:https://github.com/databricks/databricks-ml-examples/blob/master/llm-models/llamav2/llamav2-13b/01_l..。

我越來越CUDA的內存。我的GPU集群運行時

13.2毫升(包括Apache火花3.4.0,GPU, Scala 2.12), 1 256 gb內存和GPU

錯誤信息:

CUDA的記憶。試圖分配314.00 MiB (GPU 0;14.76鑲條總容量;13.50直布羅陀海峽已經分配;313.75 MiB自由;總共13.51鑲條保留PyTorch)如果> >保留內存分配的內存設置max_split_size_mb避免碎片。為內存管理和PYTORCH_CUDA_ALLOC_CONF見文檔

什麼將會是一個好辦法解決這個問題嗎?

6個回答6

庫瑪
因素二世
因素二世

@gary7135,

謝謝你發帖磚社區的問題。

請更新配置設置fp16 = True而不是虛假的當前值。為進一步的信息關於CUDA錯誤與此相關,請參考文檔

gary7135
新的貢獻者二世

謝謝你!你能提供在筆記本電腦如何設置這個論點的例子嗎?

庫瑪
因素二世
因素二世

你好@gary7135,

謝謝你的回應。

根據GitHub(你共享上麵),你應該有一個配置文件,你需要把這個設置。更多細節請參考下圖:

kumaran_0 - 1689964296082. - png

gary7135
新的貢獻者二世

謝謝你!我運行這個python文件直接在磚筆記本https://github.com/databricks/databricks-ml-examples/blob/master/llm-models/llamav2/llamav2-7b/01_lo..。

文件似乎並沒有引用配置json文件嗎?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map