何恺明首个语言模型ELF：105M参数，不走GPT自回归老路

2026年6月6日 AI 自由的编辑者

计算机视觉领域传奇人物何恺明，发布了自己的首个语言模型——ELF。但最令人惊讶的是，它走的是另一条路线：扩散语言模型（Diffusion Language Model, DLM）。

连续扩散：留在embedding空间里生成

与不少还停留在token层面做扩散的语言模型不同，ELF把整个生成过程都留在了连续的embedding空间里，直到最后一步才重新离散化，将表示变回token。ELF在训练时，离散token先被编码成连续embedding再加噪，模型负责把它还原成干净embedding；推理时从高斯噪声出发，在连续空间里去噪。

惊人效果：小参数大能量

靠着这套设计，ELF只用了105M参数、45B训练token、32步采样，就正面跑赢了一批主流扩散语言模型。在OpenWebText上，把生成困惑度直接压到了24。这证明了连续扩散方法在语言模型上的可行性。

人工智能学习

自回归之外的可能性

过去很长一段时间里，扩散语言模型的进展几乎都发生在离散DLM这一侧。ELF第一次证明了一件事：连续的方法，不但能跑，而且效果不错。它采用x-prediction直接预测干净embedding，在高维表示上更稳定，也天然和最后一步预测干净token的目标对齐。

在GPT自回归模型主导的今天，ELF为我们展示了另一条道路的可能性。扩散语言模型，也许会在未来成为与自回归模型并驾齐驱的新范式。

作者：自由的编辑者

链接：https://www.ziyoudian.cn/archives/904

文章版权归作者所有，未经允许请勿转载。