科技魔方

生成式LLM PowerInfer:单个GPU就能运行,机器学习模型推理速度提高11倍

大模型

2023年12月25日

  生成式大语言模型 (LLM) 因其在各种任务中的出色表现而闻名,包括复杂的自然语言处理 (NLP)、创意写作、问答和代码生成。近年来,LLM 已在易于使用的本地系统上运行,包括带有消费级 GPU 的家用 PC,以改善数据隐私、可定制模型并降低推理成本。本地安装优先考虑低延迟而不是高吞吐量;然而,由于内存要求较高,LLM 很难在消费级 GPU 上实现。

  这些模型通常是自回归转换器,逐个生成文本标记,并且对于每个推理,都需要访问具有数千亿个参数的完整模型。这种限制在本地部署中很明显,因为处理单个请求时用于并行处理的空间较小。当前处理这些内存问题的两种策略是卸载和模型压缩。

  在最近的一项研究中,一组研究人员提出了PowerInfer,这是一种有效的 LLM 推理系统,专为使用单个消费级 GPU 进行本地部署而设计。PowerInfer 通过预选热激活神经元并将其预加载到离线 GPU 上,并使用在线预测器在运行时识别活动神经元,减少了对昂贵的 PCIe(外围组件互连 Express)数据传输的需求。

image.png

  PowerInfer 设计背后的核心思想是利用 LLM 推理所带来的高局部性,其典型特征是神经元激活中的幂律分布。这种分布表明,大多数冷神经元根据某些输入而变化,而一小部分热神经元在不同的输入下持续激活。

  该团队表示,PowerInfer 是一款利用了这种理解的 GPU-CPU 混合推理引擎。它将冷激活神经元预加载到 CPU 上进行计算,将热激活神经元预加载到 GPU 上进行即时访问。通过策略性地分配工作负载,GPU 的内存需求大大降低,CPU 和 GPU 之间的数据传输也更少。

  PowerInfer 集成了神经元感知稀疏算子和自适应预测器,以进一步优化性能。神经元感知稀疏算子直接与单个神经元交互,无需对整个矩阵进行操作,而自适应预测器则有助于在运行时识别和预测活动神经元。这些优化增强了计算稀疏性和有效的神经元激活。

  该团队评估了 PowerInfer 的性能,显示平均每秒13.20个代币创建速率,每秒29.08个代币的峰值性能。这些成果是使用单个 NVIDIA RTX4090GPU 和各种 LLM(包括 OPT-175B 模型)实现的。该性能仅比同类最佳服务器级 A100GPU 低18%,证明了 PowerInfer 在主流硬件上的有效性。

  经过评估,PowerInfer 还表明,它的运行速度比当前的 llama.cpp 系统快11.69倍,同时保持模型保真度。总之,PowerInfer 显着提高了 LLM 推理速度,表明其作为在 GPU 功能有限的台式电脑上执行高级语言模型的解决方案的潜力。

+1

来源:站长之家

延展资讯