科技魔方

DeepSeek推出NSA 技术:加速长上下文训练与推理

更多场景

2025年02月19日

  DeepSeek团队最近发布了NSA(Native Sparse Attention)技术,旨在提升长上下文训练和推理的速度,同时降低预训练成本。该技术通过分层稀疏策略优化了注意力机制,使得模型在处理长文本时表现出色。

  NSA在多项基准测试中表现优异,甚至在某些情况下超越了传统的完全注意力模型,标志着人工智能训练与推理技术的重大进步。

  NSA技术显著提升了长上下文训练和推理的速度,并降低了预训练成本。

  采用分层稀疏策略,将注意力机制分为压缩、选择和滑动窗口,增强了模型对长文本的处理能力。

  在多项基准测试中,NSA表现优异,部分情况下超过了传统的完全注意力模型。

+1

来源:科技魔方

延展资讯