2026年4月,DeepSeek V4 正式发布,成为国产大模型发展史上的里程碑事件。V4 系列包含 V4-Pro(1.6T 参数,49B 激活)和 V4-Flash(284B 参数,13B 激活)两个版本,均支持 100 万 token 的超长上下文,并以 MIT 许可证开源。
架构革命:混合注意力机制
V4 并非简单的参数规模扩展。其采用的压缩稀疏注意力(CSA)和高压缩注意力(HCA)混合架构,将 1M token 上下文场景下的推理 FLOPs 降低至 V3 的 27%,KV 缓存仅需 V3 的 10%。这意味着在处理超长文档时,V4 的成本仅有上一代的十分之一。

编程能力跻身世界一流
V4-Pro-Max 在 SWE-bench Verified 上达到 80.6%,与 Claude Opus 4.6 的 80.8% 几乎持平;在 LiveCodeBench 上以 93.5% 的成绩登顶全球第一。同时,V4 的推理成本仅为竞品的七分之一到十分之一,真正实现了”更便宜、更强大”的突破。
国产大模型的意义
V4 的成功证明,在受限条件下的极致优化可以弥补硬件差距。当开源模型与闭源模型的差距从”代差”缩小到”统计误差”,整个 AI 产业的游戏规则正在被重新定义。