2026年,AI图像生成领域迎来密集技术突破。清华、南洋理工等机构的综述论文系统梳理了视觉生成最新格局。

五级分类框架
L1原子生成→L2条件生成→L3上下文生成→L4智能体生成→L5世界建模。目前没有任何一家达到L5,L4也仅有少数触及。
混合架构成主流
自回归负责”想清楚画什么”,扩散/流匹配负责”把细节画好”。MM-DiT成为主流骨干,U-Net退出历史舞台。

流匹配与数据工程
流匹配取代传统扩散,训练更稳定、路径更直、更易蒸馏。61.5亿参数模型追平200亿参数模型,靠的是更优质的数据而非更多参数。