浪潮信息发布源 2.0-M32 大模型 4bit / 8bit 量化版：运行显存仅需 23GB，号称性能媲美 LLaMA3

首页 更多动态 正文: 浪潮信息发布源 2.0-M32 大模型 4bit / 8bit 量化版：运行显存仅需 23GB，号称性能媲美 LLaMA3; 更多动态

2024年08月23日

点赞; 　　浪潮信息今日发布源 2.0-M32 大模型4bit 和 8bit 量化版，性能号称“比肩 700 亿参数的 LLaMA3 开源大模型”。

　　4bit 量化版推理运行显存仅需23.27GB，处理每 token 所需算力约为 1.9 GFLOPs，算力消耗仅为同等当量大模型 LLaMA3-70B 的 1/80。而 LLaMA3-70B 运行显存为 160GB，所需算力为 140GFLOPs。

　　据浪潮信息介绍，源 2.0-M32 量化版是“源”大模型团队为进一步提高模算效率，降低大模型部署运行的计算资源要求而推出的版本，将原模型精度量化至 int4 和 int8 级别，并保持模型性能基本不变。

　　源 2.0-M32 大模型是浪潮信息“源 2.0”系列大模型的最新版本，构建包含 32 个专家(Expert)的混合专家模型(MoE)，模型运行时激活参数为 37 亿。

　　评测结果显示，源 2.0-M32 量化版在 MATH(数学竞赛)、ARC-C(科学推理)任务中，性能超过了700 亿参数的 LLaMA3 大模型。

+1; 浪潮信息; 来源：IT之家