扩散语言模型崛起：颠覆Transformer的新一代AI架构来了

2026年6月22日 AI 自由的编辑者

当整个AI世界还在为Transformer架构的scaling law是否见顶争论不休时，一种全新的范式正在悄然崛起——扩散语言模型（Diffusion Language Models）。2026年6月10日，谷歌发布了DiffusionGemma，一个26B参数的开源MoE扩散语言模型，它不通过逐token预测来生成文本，而是从纯噪声开始迭代去噪，最终还原出完整文本。

这一技术路线的意义怎么强调都不过分。自回归架构（即逐token预测）自GPT系列以来一直是语言模型的标准范式，但它存在固有的问题：错误会累积、不能回头修改、输出顺序被严格限定。扩散语言模型则完全不同，它先生成一个低质量的初始输出，然后通过多轮迭代不断改进，最终达到高质量结果。

DiffusionGemma在实际测试中展现出了令人惊叹的性能。它在H100上达到每秒1000个token的生成速度，是同等规模自回归模型的4倍。更重要的是，它具备自回归模型无法复制的自我纠正能力——在生成过程中，如果发现某个部分不合理，可以直接在下一轮迭代中修正，而不是像自回归模型那样只能向前不能退后。

英伟达发布的Nemotron 3 Ultra同样采用了非自回归的创新架构。这个拥有5500亿参数的开源模型，代表了企业级长效智能体进入低成本、高推理新阶段的技术方向。Nemotron 3 Ultra在长序列推理任务上的表现超越了同规模的自回归模型，特别是在需要全局规划的场景中优势明显。

学术界的反应同样热烈。Sebastian Raschka在2026年LLM研究论文综述中将扩散语言模型列为一个独立的重要类别。来自各大高校和研究所的论文数量在过去一年中增长了近5倍，研究方向覆盖了扩散训练的加速、推理效率优化以及多模态扩展等多个维度。

如果扩散语言模型能够延续当前的发展势头，它可能在未来2至3年内与自回归模型形成互补格局。对于需要高质量长文本生成、多轮修正和全局规划的任务，扩散模型将占据优势；对于实时交互和极低延迟场景，自回归模型仍然难以替代。

从更大的视角来看，扩散语言模型的崛起代表了AI基础架构去中心化的趋势。Transformer不再是唯一的选择，混合专家模型、状态空间模型、扩散模型等多条技术路线正在并行发展。这种技术多样性不仅是创新的源泉，也降低了整个行业对单一架构的依赖风险。深度学习配图

作者：自由的编辑者

链接：https://www.ziyoudian.cn/archives/1392

文章版权归作者所有，未经允许请勿转载。