当整个AI世界还在为Transformer架构的scaling law是否见顶争论不休时,一种全新的范式正在悄然崛起——扩散语言模型(Diffusion Language Models)。2026年6月10日,谷歌发布了DiffusionGemma,一个26B参数的开源MoE扩散语言模型,它不通过逐token预测来生成文本,而是从纯噪声开始迭代去噪,最终还原出完整文本。
这一技术路线的意义怎么强调都不过分。自回归架构(即逐token预测)自GPT系列以来一直是语言模型的标准范式,但它存在固有的问题:错误会累积、不能回头修改、输出顺序被严格限定。扩散语言模型则完全不同,它先生成一个低质量的初始输出,然后通过多轮迭代不断改进,最终达到高质量结果。
DiffusionGemma在实际测试中展现出了令人惊叹的性能。它在H100上达到每秒1000个token的生成速度,是同等规模自回归模型的4倍。更重要的是,它具备自回归模型无法复制的自我纠正能力——在生成过程中,如果发现某个部分不合理,可以直接在下一轮迭代中修正,而不是像自回归模型那样只能向前不能退后。
英伟达发布的Nemotron 3 Ultra同样采用了非自回归的创新架构。这个拥有5500亿参数的开源模型,代表了企业级长效智能体进入低成本、高推理新阶段的技术方向。Nemotron 3 Ultra在长序列推理任务上的表现超越了同规模的自回归模型,特别是在需要全局规划的场景中优势明显。
学术界的反应同样热烈。Sebastian Raschka在2026年LLM研究论文综述中将扩散语言模型列为一个独立的重要类别。来自各大高校和研究所的论文数量在过去一年中增长了近5倍,研究方向覆盖了扩散训练的加速、推理效率优化以及多模态扩展等多个维度。
如果扩散语言模型能够延续当前的发展势头,它可能在未来2至3年内与自回归模型形成互补格局。对于需要高质量长文本生成、多轮修正和全局规划的任务,扩散模型将占据优势;对于实时交互和极低延迟场景,自回归模型仍然难以替代。
从更大的视角来看,扩散语言模型的崛起代表了AI基础架构去中心化的趋势。Transformer不再是唯一的选择,混合专家模型、状态空间模型、扩散模型等多条技术路线正在并行发展。这种技术多样性不仅是创新的源泉,也降低了整个行业对单一架构的依赖风险。