在人工智能屡屡斩获各类博士级竞赛桂冠的今天,我们似乎默认了这些数字大脑已经全方位超越人类。然而,一项由 UniPat AI、xbench、阿里、月之暗面以及阶跃星辰等多家顶尖机构联合发布的最新研究,却给这种乐观情绪泼了一盆冷水。研究结果令人咋舌:即便是在这一赛道领跑的 Gemini 3 Pro Preview,其视觉推理能力也仅仅是小胜三岁幼儿,而面对六岁儿童的认知水平,它依然存在 20% 的能力断层。

image.png

这场被称为 BabyVision 的视觉推理“闭卷考试”,彻底暴露了大模型在物理世界感知上的短板。当人类幼儿能够轻而易举地完成“找不同”或空间拼图时,那些在数学难题面前谈笑风生的 AI 巨头们却纷纷翻车。

推理的“语言陷阱”:为何 AI 看不清世界?

为什么坐拥万亿参数的大模型,会卡在如此基础的视觉任务上?研究发现,症结在于大模型至今仍是一个“语言动物”。它们在处理视觉信息时,习惯于先将图像翻译成文字描述,再进行逻辑推演。这种“曲线救国”的方式在处理宏观概念时尚能应付,但在面对那些无法用言语精准捕捉的视觉特征——比如微小的曲线偏移、复杂的几何交叉点或是细腻的空间遮挡关系时,信息便在翻译过程中大量丢失。

image.png

视觉推理的四大“滑铁卢”

研究团队通过 BabyVision 基准,将大模型的视觉缺陷归纳为四大维度:

  • 非言语精细细节缺失:大模型往往无法分辨像素级的几何差异,在拼图匹配中常因为无法“想象”形状的旋转对齐而选错答案。

  • 流形一致性丢失:在长距离连线或轨迹追踪任务中,大模型就像在迷宫中迷路的孩子,一旦遇到路径交叉,极易“走岔”并丢失原有的感知线索。

  • 空间想象力匮乏:文字叙述无法忠实还原三维空间,大模型在推断积木的侧视图或隐藏体积时,频繁出现数错层数或投影错误的尴尬。

  • 视觉模式归纳障碍:它们倾向于死板地“数属性”而非理解变化规律,难以从少量视觉示例中抽象出深层的因果逻辑。

image.png

具身智能的阵痛与新生

这一结论无疑让当前火热的“具身智能”赛道倍感压力。如果一个 AI 甚至无法像六岁孩子一样准确识别身边的物理环境,我们又该如何指望它在真实的物理世界中安全地协助人类?

针对这一瓶颈,研究者提出了两条进化路径:一是引入强化学习(RLVR),通过显式的中间推理来对冲感知的不确定性;二是彻底拥抱原生多模态推理,让模型学会像 Sora 2 那样在像素空间内直接进行“视觉演算”,而非借道语言。

AI 进化史上的这一场“返祖”研究提醒我们,通往通用人工智能(AGI)的道路,或许并不在更高难度的数学题里,而在那些六岁孩子就能轻松玩转的拼图游戏中。