物理AI模型Cosmos 3开源：当AI开始理解牛顿定律

2026年6月17日 AI 自由的编辑者

AI终于开始理解物理世界的运动规律——而且是开源的

2026年第一季度，NVIDIA发布了Cosmos 3——全球首款完全开放的全模态物理AI基础模型。这不是一个像GPT那样”只会说话”的语言模型，而是一个真正理解物理世界运行规律的AI系统。Cosmos 3能同时理解文本、图像、视频、环境音和动作，将视觉推理、世界生成和动作预测集成至单一系统中。

Cosmos 3的开源意义尤其重大。NVIDIA不仅开源了模型权重，还开放了训练框架、数据管道和评估基准。这让全球任何一家机器人公司、自动驾驶团队或物理仿真实验室都能基于Cosmos 3构建自己的物理AI应用，而不需要从零开始训练。正如黄仁勋在GTC 2026上所说：”物理AI的未来不会是封闭的，它将由开源定义。”

机器人

Cosmos 3能做什么？

Cosmos 3的核心能力可以概括为：”输入物理世界的感知数据，输出对物理世界的理解与预测”。具体来说，它包含三大能力模块：

物理场景理解。给定一段视频或一组传感器数据，Cosmos 3能推断出场景中的物体属性（质量、材质、摩擦系数）、物体间的物理关系（接触、支撑、连接）以及场景中可能的物理事件（物体掉落、液体流动、碰撞反弹）。这种理解是”因果性”的而非”统计性”的——它不是在找训练数据中的类似场景，而是真正对物理规律进行推理。

物理世界预测。Cosmos 3能够预测物理场景在未来的演化轨迹。给定一个物体的当前状态（位置、速度、姿态），它可以预测该物体在未来几秒内的运动路径。在机器人操作任务中，这种预测能力让机器人可以在行动之前”想象”不同操作方案的结果，从而选择最优方案。

物理世界生成。Cosmos 3可以根据文本描述或草图生成符合物理规律的视频。输入的Prompt不再是”生成一只猫在跳跃”——而是生成”一只重5kg的猫以2m/s的初速度从高度1m的台面上跳跃到对面0.8m高的椅子上的视频”。生成的视频中，猫的轨迹完全符合重力加速度、动量守恒等物理法则。

产业影响：物理AI的”Android时刻”

Cosmos 3的开源被业界称为物理AI的”Android时刻”。它让物理AI从一个只有少数巨头才能参与的”高端俱乐部”，变成了任何人都可以参与的开放平台。Cosmos 3发布的第一个月，GitHub上的Star数就突破了5万，全球超过1000家机器人公司和研究机构开始在Cosmos 3基础上构建自己的物理AI应用。

在工业场景中，Cosmos 3已经被用于：机器人在虚拟环境中进行”预训练”再将技能迁移到真实机器人上，使训练成本降低了90%以上；自动驾驶系统的仿真测试，生成各种危险的边缘场景；以及工业设备的数字孪生与故障预测。

然而，Cosmos 3也并非完美。它目前对精细操作（如抓取微小物体）的物理模拟精度还有限，对非刚性物体（如液体、布料）的建模也处于早期阶段。但作为第一个开源的全模态物理AI模型，Cosmos 3已经为整个行业打开了通向物理AI的大门。下一个AI前沿，不只在数字世界里”思考”，更在物理世界里”行动”。

作者：自由的编辑者

链接：https://www.ziyoudian.cn/archives/1284

文章版权归作者所有，未经允许请勿转载。