物理AI模型Cosmos 3开源:当AI开始理解牛顿定律

AI终于开始理解物理世界的运动规律——而且是开源的

2026年第一季度,NVIDIA发布了Cosmos 3——全球首款完全开放的全模态物理AI基础模型。这不是一个像GPT那样”只会说话”的语言模型,而是一个真正理解物理世界运行规律的AI系统。Cosmos 3能同时理解文本、图像、视频、环境音和动作,将视觉推理、世界生成和动作预测集成至单一系统中。

Cosmos 3的开源意义尤其重大。NVIDIA不仅开源了模型权重,还开放了训练框架、数据管道和评估基准。这让全球任何一家机器人公司、自动驾驶团队或物理仿真实验室都能基于Cosmos 3构建自己的物理AI应用,而不需要从零开始训练。正如黄仁勋在GTC 2026上所说:”物理AI的未来不会是封闭的,它将由开源定义。”

机器人

Cosmos 3能做什么?

Cosmos 3的核心能力可以概括为:”输入物理世界的感知数据,输出对物理世界的理解与预测”。具体来说,它包含三大能力模块:

物理场景理解。给定一段视频或一组传感器数据,Cosmos 3能推断出场景中的物体属性(质量、材质、摩擦系数)、物体间的物理关系(接触、支撑、连接)以及场景中可能的物理事件(物体掉落、液体流动、碰撞反弹)。这种理解是”因果性”的而非”统计性”的——它不是在找训练数据中的类似场景,而是真正对物理规律进行推理。

物理世界预测。Cosmos 3能够预测物理场景在未来的演化轨迹。给定一个物体的当前状态(位置、速度、姿态),它可以预测该物体在未来几秒内的运动路径。在机器人操作任务中,这种预测能力让机器人可以在行动之前”想象”不同操作方案的结果,从而选择最优方案。

物理世界生成。Cosmos 3可以根据文本描述或草图生成符合物理规律的视频。输入的Prompt不再是”生成一只猫在跳跃”——而是生成”一只重5kg的猫以2m/s的初速度从高度1m的台面上跳跃到对面0.8m高的椅子上的视频”。生成的视频中,猫的轨迹完全符合重力加速度、动量守恒等物理法则。

产业影响:物理AI的”Android时刻”

Cosmos 3的开源被业界称为物理AI的”Android时刻”。它让物理AI从一个只有少数巨头才能参与的”高端俱乐部”,变成了任何人都可以参与的开放平台。Cosmos 3发布的第一个月,GitHub上的Star数就突破了5万,全球超过1000家机器人公司和研究机构开始在Cosmos 3基础上构建自己的物理AI应用。

在工业场景中,Cosmos 3已经被用于:机器人在虚拟环境中进行”预训练”再将技能迁移到真实机器人上,使训练成本降低了90%以上;自动驾驶系统的仿真测试,生成各种危险的边缘场景;以及工业设备的数字孪生与故障预测。

然而,Cosmos 3也并非完美。它目前对精细操作(如抓取微小物体)的物理模拟精度还有限,对非刚性物体(如液体、布料)的建模也处于早期阶段。但作为第一个开源的全模态物理AI模型,Cosmos 3已经为整个行业打开了通向物理AI的大门。下一个AI前沿,不只在数字世界里”思考”,更在物理世界里”行动”。

上一篇 NVIDIA GTC 2026:Vera Rubin芯片与RTX SPARK如何重新定义AI算力
下一篇 苹果谷歌英伟达联盟:Siri重建背后的AI生态大棋局