商湯オープンソース SenseNova-MARS：エージェント型VLAMによりAIに独立した思考と行動力を付与

2026年1月30日、商湯科技は初めて動的ビジュアルリコールとテキスト・画像検索の統合をサポートするエージェント型VLMモデル「SenseNova-MARS」を正式にオープンソース化しました。このモデルには8Bと32Bの2つのバージョンがあり、「探偵が事件を解くように」論理を模倣することで、AIが単なる「理解」から自主的な「実行」への飛躍を実現しています。

パフォーマンスの飛躍：GPT-5.2を上回る

最新の業界ベンチマークテストにおいて、SenseNova-MARSは驚くべき性能を発揮しました：

検索推論で首位を獲得：MMSearch（テキスト・画像検索の主要評価）で74.27点を獲得し、GPT-5.2の66.08点を大きく上回りました。

細部検索でリード：HR-MMSearch（高精細な細部検索評価）で54.43点を獲得し、主流の非公開モデルとの差を広げました。

多角的な能力検証：FVQAやInfoSeekなどの多くの権威ある視覚理解評価で、オープンソースモデルの中で最良（SOTA）の成績を収めています。

コア技術：人間のようにツールを協働する

SenseNova-MARSの特徴は、「自律的な計画」能力であり、複雑な長期間のタスクである「細部認識＋情報検索＋論理推論」を自動的に解決できます：

画像の細部切り抜き：全体の5％未満の小さなディテール（例えばレーシングスーツのロゴ）に焦点を当て、自動的に拡大して分析します。

動的なテキスト・画像検索：物体や人物を識別する瞬間に、グローバルな関連情報を自動的にマッチさせます。例えば、機器の型式や業界データなどです。

多段階の深い推論：「まず拡大し、次に識別し、最後に背景を調べる」ようなタスクでも手をこねることなく、非常に強力な「ツール使用の直感」を持っています。

トレーニングの秘訣：「個々のニーズに合わせた」二段階の進化

商湯研究チームは、二段階のトレーニングにより、モデルに厳密な論理の連鎖を与えました：

第一段階（基礎固め）：自動データ合成エンジンを利用して「高難度のケースライブラリ」を作成し、AIに基本的な多段検索ロジックを学ばせ、スタート時に本物の複雑な状況に直面できるようにしました。

第二段階（実戦練習）：BN-GSPOアルゴリズムを導入して強化学習を行い、探偵を訓練するように、報酬メカニズムによって変動を滑らかにし、モデルがさまざまな問題を処理する際にも安定した進歩を維持できるようにしました。

オープンソースへの挑戦：世界中の開発者を支援

商湯が本格的にオープンソース化した SenseNova-MARS：マルチモーダルな自律的推論の新時代を切り開く

商湯科技がマルチモーダル自律推論モデル「SenseNova-MARS」をオープンソース化し、8Bと32Bバージョンを提供。初のAgentic VLMとして、動的視覚推論と画像検索を統合し、画像理解と自律推論が可能で、マルチモーダル大規模モデルの発展を推進。....

liko.aiが初のシリーズA資金調達を成功させ、エッジ側視覚言語モデルによりスマートホームを変革する！

スタートアップliko.aiが初回資金調達を完了。商湯国香資本、東方富海などが投資。調達資金はエッジ側視覚言語モデルとAIハードウェアの開発に充てられ、次世代家庭用コンピューティングハブの構築を目指す。AI Home CenterとAIカメラでスマートホーム体験を革新予定。....

全国初のクラウド宇宙星空モデルが発表されました。スマートシティ計画を支援します！

上海で全国初の都市計画AIモデル「雲宇星空」を発表。6000億パラメータでリモートセンシング画像や3Dデータを統合し、AI都市プランナーを目指す。業界基盤と6つの専門エージェントで構成され、都市計画・行政分野をカバー。....

商湯がNEOアーキテクチャをオープンソース化：ネイティブなマルチモーダルモデルではパズル式設計を放棄、データ量を90%減らしてもSOTAを達成

商湯科技と南洋理工大学が共同で開発したネイティブマルチモーダルアーキテクチャ「NEO」を発表し、2Bと9Bモデルをオープンソース化。従来の3段階設計を廃し、注意機構から意味マッピングまで再構築。データ要件は業界平均の10分の1に抑えつつ、「ピクセルからトークン」への連続マッピングを実現。....

商湯NEOのオープンソース：1/10のデータ量でトップクラスのマルチモーダルモデルと同等の性能、くみ上げ型AI時代の終焉