人工知能がさまざまな博士級コンペティションで連続して優勝を果たす今日、私たちはこれらのデジタル脳が人間を完全に超えていると当たり前のように思っている。しかし、UniPat AI、xbench、アリババ、月の暗面、そしてステップスターなどの主要機関が共同で発表した最新研究は、この楽観的な態度に冷水を浴びせた。その結果は衝撃的だった。最も進んだGemini 3 Pro Previewですら、三歳児童にわずかに勝るに過ぎず、六歳児童の認知レベルには20%の能力のギャップがある。


「BabyVision」と呼ばれるこの視覚推論の「閉験試験」は、大規模モデルが物理世界の認識において持つ欠点を露呈した。人間の乳児が簡単に「違いを見つける」や空間パズルができるのに、数学の難問を笑い飛ばすAIの大手企業はすべて失敗している。

推論の「言語の罠」:なぜAIは世界を理解できないのか?

何十億ものパラメータを持つ大規模モデルが、このような基本的な視覚タスクで詰まってしまうのはなぜだろう?研究によると、その理由は、大規模モデルが今も「言語動物」であることに起因する。彼らは視覚情報を処理する際、まず画像を言葉に翻訳し、その後論理的推論を行う。この「曲がり道」の方法は、大まかな概念の処理にはまだ対応できるが、言葉では正確に捉えることのできない視覚的な特徴—例えば微細な曲線の偏移や複雑な幾何学的な交差点、または微妙な空間的な遮蔽関係—には、情報が翻訳の過程で大量に失われる。

視覚推論の4つの「逆境」

研究チームは、BabyVisionの基準を通じて、大規模モデルの視覚的な欠点を4つの次元にまとめた:

  • 言語に依存しない精細な細部の欠如:大規模モデルはピクセル単位の幾何的な違いを区別できず、パズルマッチングでは形状の回転と一致ができないため、答えを誤る。

  • 多様体の一貫性の喪失:長距離の接続や軌跡追跡のタスクでは、大規模モデルは迷路の中で道に迷う子供のように、経路の交差に遭遇すると「間違い」を犯し、元の感覚的ヒントを失う。

  • 空間想像力の不足:文章による記述は三次元空間を忠実に再現できないため、積み木の側面図や隠れた体積を推定する際に、階数を数え間違えたり、投影ミスが頻繁に起きる。

  • 視覚パターンの一般化障害:彼らは変化の法則を理解するのではなく、属性を「数える」ことに固執し、少量の視覚例から深い因果関係を抽出するのが難しい。


身体知能の痛みと新たな出発

この結論は現在注目されている「身体知能」の分野にとって大きなプレッシャーとなった。もしAIが六歳児童と同じように周囲の物理環境を正確に識別できないなら、我々はどのようにしてそれらが現実の物理世界で安全に人間を補助してくれるのだろうか?

この課題に対して、研究者は2つの進化の道を提案した。一つは強化学習(RLVR)の導入であり、明示的な中間推論によって感知の不確実性をカバーすること。もう一つは、完全にネイティブなマルチモーダル推論を受け入れることで、Sora 2のようにピクセル空間内で直接「視覚演算」を行えるようにモデルを育てること。

人工知能の進化史におけるこの「逆進」的な研究は、汎用人工知能(AGI)への道が、より難しい数学問題の中ではなく、六歳児童が簡単に遊べるパズルゲームの中に存在するかもしれないことを私たちに思い出させてくれる。

BabyVisionの評価詳細完全な調査報告書を参照したいですか?