生成式AI在2026年迎来了新进化拐点。从文字生成到视频生成、3D建模乃至世界模拟,AI创造能力从”模仿”走向”理解”。

nano Banana:理解空间的AI
Google的nano Banana模型不仅能融合多张图片,还能理解地理、建筑与物理结构,将二维地图转化为三维景观,从等高线绘制真实地貌。
Thinking-while-Generating
港中文与美团提出TwiG范式,视觉生成被拆解为”生成-思考-再生成”循环。模型在绘制中多次”暂停”插入文本推理,实现自我修正。

LayerDiffusion:分图层生成
ControlNet作者的LayerDiffusion让AI直接生成带透明图层的PNG,97%用户偏好。AI视觉生成的下一个前沿是”生成即行动”。