硅基生物的“视力瓶颈”：顶级大模型视觉推理竟难敌 6 岁孩童？

在人工智能屡屡斩获各类博士级竞赛桂冠的今天，我们似乎默认了这些数字大脑已经全方位超越人类。然而，一项由 UniPat AI、xbench、阿里、月之暗面以及阶跃星辰等多家顶尖机构联合发布的最新研究，却给这种乐观情绪泼了一盆冷水。研究结果令人咋舌：即便是在这一赛道领跑的 Gemini 3 Pro Preview，其视觉推理能力也仅仅是小胜三岁幼儿，而面对六岁儿童的认知水平，它依然存在 20% 的能力断层。

这场被称为 BabyVision 的视觉推理“闭卷考试”，彻底暴露了大模型在物理世界感知上的短板。当人类幼儿能够轻而易举地完成“找不同”或空间拼图时，那些在数学难题面前谈笑风生的 AI 巨头们却纷纷翻车。

推理的“语言陷阱”：为何 AI 看不清世界？

为什么坐拥万亿参数的大模型，会卡在如此基础的视觉任务上？研究发现，症结在于大模型至今仍是一个“语言动物”。它们在处理视觉信息时，习惯于先将图像翻译成文字描述，再进行逻辑推演。这种“曲线救国”的方式在处理宏观概念时尚能应付，但在面对那些无法用言语精准捕捉的视觉特征——比如微小的曲线偏移、复杂的几何交叉点或是细腻的空间遮挡关系时，信息便在翻译过程中大量丢失。

视觉推理的四大“滑铁卢”

研究团队通过 BabyVision 基准，将大模型的视觉缺陷归纳为四大维度：

非言语精细细节缺失：大模型往往无法分辨像素级的几何差异，在拼图匹配中常因为无法“想象”形状的旋转对齐而选错答案。
流形一致性丢失：在长距离连线或轨迹追踪任务中，大模型就像在迷宫中迷路的孩子，一旦遇到路径交叉，极易“走岔”并丢失原有的感知线索。
空间想象力匮乏：文字叙述无法忠实还原三维空间，大模型在推断积木的侧视图或隐藏体积时，频繁出现数错层数或投影错误的尴尬。
视觉模式归纳障碍：它们倾向于死板地“数属性”而非理解变化规律，难以从少量视觉示例中抽象出深层的因果逻辑。

具身智能的阵痛与新生

这一结论无疑让当前火热的“具身智能”赛道倍感压力。如果一个 AI 甚至无法像六岁孩子一样准确识别身边的物理环境，我们又该如何指望它在真实的物理世界中安全地协助人类？

针对这一瓶颈，研究者提出了两条进化路径：一是引入强化学习（RLVR），通过显式的中间推理来对冲感知的不确定性；二是彻底拥抱原生多模态推理，让模型学会像 Sora 2 那样在像素空间内直接进行“视觉演算”，而非借道语言。

AI 进化史上的这一场“返祖”研究提醒我们，通往通用人工智能（AGI）的道路，或许并不在更高难度的数学题里，而在那些六岁孩子就能轻松玩转的拼图游戏中。

硅基生物的“视力瓶颈”：顶级大模型视觉推理竟难敌 6 岁孩童？

推理的“语言陷阱”：为何 AI 看不清世界？

视觉推理的四大“滑铁卢”

具身智能的阵痛与新生

相关推荐

2025全球机器人暴涨500%，智元斩获“三冠王”称霸多场景

硅基生物的“思维广角”:Google DeepMind 推出 D4RT，赋予 AI 穿透时空的四维视觉

11 天生成 300 万张色情图？马斯克旗下 Grok 陷 deepfake 漩涡

回应“觉醒 AI”质疑:OpenAI 营销主管自曝共和党身份，并称联合创始人曾豪捐 MAGA

搜索量狂飙百倍背后的真相：京东CEO许冉在达沃斯揭秘 AI消费已彻底接管购物车

硅基生物的“视力瓶颈”：顶级大模型视觉推理竟难敌 6 岁孩童？

推理的“语言陷阱”：为何 AI 看不清世界？

视觉推理的四大“滑铁卢”

具身智能的阵痛与新生

相关推荐

2025全球机器人暴涨500%，智元斩获“三冠王”称霸多场景

硅基生物的“思维广角”:Google DeepMind 推出 D4RT，赋予 AI 穿透时空的四维视觉

​11 天生成 300 万张色情图？马斯克旗下 Grok 陷 deepfake 漩涡

回应“觉醒 AI”质疑:OpenAI 营销主管自曝共和党身份，并称联合创始人曾豪捐 MAGA

搜索量狂飙百倍背后的真相：京东CEO许冉在达沃斯揭秘 AI消费已彻底接管购物车

11 天生成 300 万张色情图？马斯克旗下 Grok 陷 deepfake 漩涡