2026年1月30日、商湯科技は初めて動的ビジュアルリコールとテキスト・画像検索の統合をサポートするエージェント型VLMモデル「SenseNova-MARS」を正式にオープンソース化しました。このモデルには8Bと32Bの2つのバージョンがあり、「探偵が事件を解くように」論理を模倣することで、AIが単なる「理解」から自主的な「実行」への飛躍を実現しています。

パフォーマンスの飛躍:GPT-5.2を上回る

最新の業界ベンチマークテストにおいて、SenseNova-MARSは驚くべき性能を発揮しました:

検索推論で首位を獲得:MMSearch(テキスト・画像検索の主要評価)で74.27点を獲得し、GPT-5.2の66.08点を大きく上回りました。

細部検索でリード:HR-MMSearch(高精細な細部検索評価)で54.43点を獲得し、主流の非公開モデルとの差を広げました。

多角的な能力検証:FVQAやInfoSeekなどの多くの権威ある視覚理解評価で、オープンソースモデルの中で最良(SOTA)の成績を収めています。

コア技術:人間のようにツールを協働する

SenseNova-MARSの特徴は、「自律的な計画」能力であり、複雑な長期間のタスクである「細部認識+情報検索+論理推論」を自動的に解決できます:

画像の細部切り抜き:全体の5%未満の小さなディテール(例えばレーシングスーツのロゴ)に焦点を当て、自動的に拡大して分析します。

動的なテキスト・画像検索:物体や人物を識別する瞬間に、グローバルな関連情報を自動的にマッチさせます。例えば、機器の型式や業界データなどです。

多段階の深い推論:「まず拡大し、次に識別し、最後に背景を調べる」ようなタスクでも手をこねることなく、非常に強力な「ツール使用の直感」を持っています。

トレーニングの秘訣:「個々のニーズに合わせた」二段階の進化

商湯研究チームは、二段階のトレーニングにより、モデルに厳密な論理の連鎖を与えました:

第一段階(基礎固め):自動データ合成エンジンを利用して「高難度のケースライブラリ」を作成し、AIに基本的な多段検索ロジックを学ばせ、スタート時に本物の複雑な状況に直面できるようにしました。

第二段階(実戦練習):BN-GSPOアルゴリズムを導入して強化学習を行い、探偵を訓練するように、報酬メカニズムによって変動を滑らかにし、モデルがさまざまな問題を処理する際にも安定した進歩を維持できるようにしました。

オープンソースへの挑戦:世界中の開発者を支援