DeepSeek团队最近发布了NSA(Native Sparse Attention)技术,旨在提升长上下文训练和推理的速度,同时降低预训练成本。该技术通过分层稀疏策略优化了注意力机制,使得模型在处理长文本时表现出色。
NSA在多项基准测试中表现优异,甚至在某些情况下超越了传统的完全注意力模型,标志着人工智能训练与推理技术的重大进步。
NSA技术显著提升了长上下文训练和推理的速度,并降低了预训练成本。
采用分层稀疏策略,将注意力机制分为压缩、选择和滑动窗口,增强了模型对长文本的处理能力。
在多项基准测试中,NSA表现优异,部分情况下超过了传统的完全注意力模型。