DeepSeek推出NSA 技术:加速长上下文训练与推理_科技魔方-中文AI大模型门户网站

首页 更多场景 正文: DeepSeek推出NSA 技术:加速长上下文训练与推理; 更多场景

2025年02月19日

点赞; 　　DeepSeek团队最近发布了NSA(Native Sparse Attention)技术，旨在提升长上下文训练和推理的速度，同时降低预训练成本。该技术通过分层稀疏策略优化了注意力机制，使得模型在处理长文本时表现出色。

　　NSA在多项基准测试中表现优异，甚至在某些情况下超越了传统的完全注意力模型，标志着人工智能训练与推理技术的重大进步。

　　NSA技术显著提升了长上下文训练和推理的速度，并降低了预训练成本。

　　采用分层稀疏策略，将注意力机制分为压缩、选择和滑动窗口，增强了模型对长文本的处理能力。

　　在多项基准测试中，NSA表现优异，部分情况下超过了传统的完全注意力模型。

+1; DeepSeek 大模型; 来源：科技魔方