NSA稀疏注意力：DeepSeek如何用更少的算力实现更强的推理

2026年6月17日 AI 自由的编辑者

注意力机制的”瘦身革命”——NSA架构如何改写Transformer的效率法则

2026年，DeepSeek以一种出人意料的方式再次震惊了AI界。在完成高达500亿人民币的新一轮融资后，DeepSeek发布了NSA（Native Sparse Attention，原生稀疏注意力）机制——一种从根本上改变Transformer注意力计算方式的新型架构。这一创新让模型的注意力计算量降低了70%以上，同时在长上下文推理任务上保持了甚至超越了全注意力模型的性能。

在NSA出现之前，Transformer模型的注意力机制有一个众所周知的”阿喀琉斯之踵”：计算复杂度随输入序列长度呈二次方增长。这意味着处理一篇长文档或一段长对话时，计算成本会急剧上升。NSA的核心突破在于：它证明了”模型不需要关注输入中的所有内容”——只需要智能地选择最相关的部分进行注意力计算，就能达到甚至超过全注意力的效果。

深度学习

NSA的技术原理：从”全连接”到”智能路由”

传统Transformer的注意力机制可以理解为”每个人都在和所有人对话”——每个token都要与其他所有token计算注意力权重。这种”全连接”模式确保了信息的全局流通，但随着序列变长，计算量呈平方级增长。

NSA引入了”智能路由”机制替代”暴力全连接”。模型的每一层注意力头被分成两组：全局头（Global Heads）负责捕获长距离依赖，局部头（Local Heads）聚焦滑动窗口内的短期上下文。全局头采用一种可学习的”注意力路由”算法，只选择与当前token最相关的Top-K个token进行注意力计算，而非全部。关键在于，这个路由选择本身也是可微的，通过端到端训练自动学会了哪些信息值得关注、哪些可以忽略。

DeepSeek的基准测试显示，NSA在128K上下文的处理上比标准注意力机制快3.2倍，内存占用降低75%，而在长文档问答、多轮对话和代码理解等任务上的得分差异不超过1%。在部分任务上（如长文档摘要），NSA甚至因为”去除了注意力噪声”而表现得更好。

NSA的产业化意义：降低AI推理的门槛

NSA的发布在产业界引起了强烈的连锁反应。最直接的影响是AI推理成本的进一步下降：当注意力计算量降低70%且不牺牲质量时，运营AI服务的边际成本大幅减少。对于需要处理大量长上下文的应用（如文档分析、代码库理解和Agent式工作流），这意味着成本结构从”线性增长”变为”准线性增长”，让之前因成本过高而无法上线的长上下文场景变得经济可行。

NSA的开源也加速了它在社区中的普及。多个开源模型框架（如Hugging Face Transformers、vLLM）在NSA发布后两周内就完成了集成。社区开发者发现，NSA不仅适用于推理，在训练阶段同样能显著减少计算量——用NSA训练的MoE模型在相同算力预算下，参数利用率提升了约40%。

稀疏注意力：Transformer架构的下一个十年

NSA的成功不是孤立的。它代表了Transformer架构演进的一个重要方向：从”暴力计算”走向”智能计算”。未来十年，稀疏注意力有望取代全注意力成为Transformer的标配机制。正如一位DeepSeek研究员所说：”人类的注意力本身就是稀疏的——没有人能同时关注所有事物。让机器模仿这种’稀疏但精准’的注意力机制，才是通向更高智能的路径。”

作者：自由的编辑者

链接：https://www.ziyoudian.cn/archives/1282

文章版权归作者所有，未经允许请勿转载。