你好,我是新LLM,我想試一試。我做了下麵的代碼來測試從磚網站:
從變壓器進口管道進口火炬instruct_pipeline =管道(=“磚/ dolly-v2-12b”模型,torch_dtype =火炬。bfloat16 trust_remote_code = True, device_map =“汽車”)
它似乎downding 24 g模型文件每次重新啟動集群。
下載(…)“pytorch_model.bin”;: 100% 23.8 - 23.8 g / g (02:39 < 00:00, 128 mb / s)
有沒有一種方法(和我在哪裏可以找到指令)來加載pytorch_model。本文件“本地”這不是下載它每次重新啟動集群?
附加的問題,什麼是體麵的集群配置測試出來?到目前為止我一直試圖與g4dn測試它。2xlarge (32gig, 1 gpu) with 12.2 lts ml (gpu) and it's telling me a CUDA out of memory error.
OutOfMemoryError: CUDA的內存。試圖分配492.00 MiB (GPU 0;14.76鑲條總容量;13.52直布羅陀海峽已經分配;483.75 MiB自由;總共13.53鑲條保留PyTorch)如果> >保留內存分配的內存設置max_split_size_mb避免碎片。為內存管理和PYTORCH_CUDA_ALLOC_CONF見文檔