AI显存需求计算器 - CocoSoso

Llama2/Qwen/ChatGLM 显存需求计算

模型参数量（以十亿为单位）

量化位数

上下文长度

Hidden Dimension

层数

并发用户数

详细说明

模型参数量：输入模型的参数数量（以十亿为单位）
常见模型示例：
- Llama2-7B = 7
- Qwen-14B = 14
- DeepSeek-R1-Distill-Qwen-1.5B = 1.5
量化精度：选择模型的量化位数
常见量化版本示例：
- 原始模型：FP32（32位）或 FP16（16位）
- INT8量化：Llama2-7B-q8 = 8位
- INT4量化：chatglm3-6b-q4 = 4位
- GPTQ/AWQ：通常为4位量化
上下文长度：模型能处理的最大token数量
- 常见长度：2K(2048)、4K(4096)、8K(8192)、32K(32768)
- 提示：较短的上下文长度可以显著减少显存占用
- 部署建议：可根据实际需求调整，无需总是使用最大值
Hidden Dimension：模型的隐藏层维度
- 这是transformer架构中的关键参数，决定了模型的容量
- 常见值：1024（小型）、2048（中型）、4096（大型）
- 示例：Llama2-7B使用4096，DeepSeek-1.5B使用2048
层数：transformer层的数量
- 层数越多，模型能力越强，但显存占用也越大
- 常见配置：12层（小型）、24层（中型）、32层（大型）
- 示例：Llama2-7B为32层，较小模型通常为16-24层
并发用户数：同时使用模型的用户数量
- 个人使用：保持默认值1即可
- 多用户场景：根据实际并发需求调整
- 注意：用户数与显存占用呈线性关系

注意：模型的具体参数可以在模型的说明文档中找到，如果找不到某些参数，可以使用默认值进行估算。