昨今のImageNet分類から現在の拡散モデルに至るまで、コンピュータビジョンは過去10年間、機械が「世界を理解する」ことを目指してきました。しかし、知覚能力が人間の限界に近づくにつれて、単純な正確率の向上の限界収益は減少しています。CVPR2026では、視覚知能の研究の重点が深く転換しています。視覚はもはや目的ではなく、推論・意思決定・インタラクションのために使われる中間手段となっています。

「盲目的な推論」からの脱却:自適応と非明示的な経路へ

長年にわたり、マルチモーダルモデルは「思考チェーン(CoT)」を通じて論理的推論を行ってきました。しかし最新の研究では、この「毎回推論する」という方法は効率的でないことが明らかになっています。例えばVideoAuto-R1フレームワークは「必要に応じた推論」という概念を提示しました。簡単な知覚タスクには直接回答し、複雑な論理的なシナリオではのみ推論をトリガーします。実験結果によると、この方法により最適なパフォーマンスを維持しつつ、平均出力長さを3.3倍短縮できました。

image.png

また、推論の媒体も変化しています。これまでモデルは空間関係を処理する際に言語記述に強く依存していましたが、これはパズルや幾何構造を扱う際には限界がありました。新しいトレンドは、モデルが「潜在空間」内で直接的に非明示的な視覚的推論を行うことで、線形テキストに変換することなく、より自然に複雑な視覚構造を描写することです。

評価体系の再考:「選択問題」の偽りの繁栄を打ち破る

現在の視覚言語モデルの評価は多くの場合、複数選択問題(MCQA)を使用していますが、これはモデルの能力を系統的に過大評価している可能性があります。研究では、モデルが排除法や選択肢バイアスを使って「巧みに答える」傾向があることがわかりました。その結果、実際の得点は約20ポイント高く評価されている可能性があります。そのため業界では、「検証可能なオープンクエスチョン」の枠組みを推進しており、モデルが視覚コンテンツを真正に理解する必要があり、選択肢のヒントに頼ることはできません。

同時に、評価の場面は単一主体の静的画像から多エージェント環境へと移行しています。VS-Benchなどの新しいベンチマークの登場により、モデルは環境を理解するだけでなく、協力や競争など複雑な相互作用の中で戦略的推論や意思決定能力を持つ必要があります。これは視覚知能が単なる「理解者」から「意思決定者」への進化を示しています。

image.png

インフラストラクチャのアップグレード:オープンソースモデルとリアルデータの補完

モデルの形態において、オープンソース界はさらに徹底した透明性を迎えています。Molmo2などのモデルは重みだけでなく、データとトレーニングプロセスを完全に公開しています。このようなモデルは単一の画像からビデオに能力を拡張し、細かい位置情報機能を導入することで、「理解する」から「位置を指摘する」への飛躍を実現しています。

これらの進歩を支えているのは、ますます整備されるデータインフラストラクチャです。テキスト駆動の画像編集タスクに対して、Pico-Banana-400Kなどの大規模なリアルデータセットが登場し、以前の合成データに過度に依存していた空白を埋めています。このデータセットは複数回の編集と好みの整合性をサポートし、常識的で論理的な編集モデルの訓練に堅実な基盤を提供します。

総合すると、視覚知能は単一の知覚から、知覚・認知・行動を統合した一体型の知能へと進化しています。この過程は単なる性能の小手先の改良ではなく、推論メカニズム、評価の枠組み、データ供給のシステム的な再構築です。