计算机视觉领域传奇人物何恺明,发布了自己的首个语言模型——ELF。但最令人惊讶的是,它走的是另一条路线:扩散语言模型(Diffusion Language Model, DLM)。
连续扩散:留在embedding空间里生成
与不少还停留在token层面做扩散的语言模型不同,ELF把整个生成过程都留在了连续的embedding空间里,直到最后一步才重新离散化,将表示变回token。ELF在训练时,离散token先被编码成连续embedding再加噪,模型负责把它还原成干净embedding;推理时从高斯噪声出发,在连续空间里去噪。
惊人效果:小参数大能量
靠着这套设计,ELF只用了105M参数、45B训练token、32步采样,就正面跑赢了一批主流扩散语言模型。在OpenWebText上,把生成困惑度直接压到了24。这证明了连续扩散方法在语言模型上的可行性。

自回归之外的可能性
过去很长一段时间里,扩散语言模型的进展几乎都发生在离散DLM这一侧。ELF第一次证明了一件事:连续的方法,不但能跑,而且效果不错。它采用x-prediction直接预测干净embedding,在高维表示上更稳定,也天然和最后一步预测干净token的目标对齐。
在GPT自回归模型主导的今天,ELF为我们展示了另一条道路的可能性。扩散语言模型,也许会在未来成为与自回归模型并驾齐驱的新范式。