人类理解世界从来不是靠单一感官——我们同时在看、在听、在触摸、在感知。多模态AI的目标,就是让机器也拥有这种综合感知能力。IBM院士兼发明大师Aaron Baughman指出,这类模型将能以更贴近人类的方式感知世界、采取行动,具备打通语言、视觉与行为三大维度的能力。 为什么多模态是必经之路? 单