Llama2/Qwen/ChatGLM 显存需求计算
详细说明
- 模型参数量:输入模型的参数数量(以十亿为单位)
常见模型示例:- Llama2-7B = 7
- Qwen-14B = 14
- DeepSeek-R1-Distill-Qwen-1.5B = 1.5
- 量化精度:选择模型的量化位数
常见量化版本示例:- 原始模型:FP32(32位)或 FP16(16位)
- INT8量化:Llama2-7B-q8 = 8位
- INT4量化:chatglm3-6b-q4 = 4位
- GPTQ/AWQ:通常为4位量化
- 上下文长度:模型能处理的最大token数量
- 常见长度:2K(2048)、4K(4096)、8K(8192)、32K(32768)
- 提示:较短的上下文长度可以显著减少显存占用
- 部署建议:可根据实际需求调整,无需总是使用最大值
- Hidden Dimension:模型的隐藏层维度
- 这是transformer架构中的关键参数,决定了模型的容量
- 常见值:1024(小型)、2048(中型)、4096(大型)
- 示例:Llama2-7B使用4096,DeepSeek-1.5B使用2048
- 层数:transformer层的数量
- 层数越多,模型能力越强,但显存占用也越大
- 常见配置:12层(小型)、24层(中型)、32层(大型)
- 示例:Llama2-7B为32层,较小模型通常为16-24层
- 并发用户数:同时使用模型的用户数量
- 个人使用:保持默认值1即可
- 多用户场景:根据实际并发需求调整
- 注意:用户数与显存占用呈线性关系
注意:模型的具体参数可以在模型的说明文档中找到,如果找不到某些参数,可以使用默认值进行估算。