2026年1月29日、商湯科技は、マルチモーダルな自律的推論モデル「SenseNova-MARS」を正式にオープンソース化することを発表し、8Bおよび32Bの2つのバージョンを同時に提供しました。このモデルのリリースは、マルチモーダル大規模モデルが自律的推論分野で重要な一歩を踏み出したことを示しています。

技術的な革新:最初のエージェント型VLMモデル

SenseNova-MARSは、技術的なアーキテクチャにおいて大きな革新を遂げており、業界で初めて動的視覚推論とテキスト・画像検索を深く統合したエージェント型VLM(エージェント視覚言語モデル)です。

自律的推論:モデルは画像の内容を理解するだけでなく、エージェントのように自主的な計画と推論能力も備えています。

深い統合:リアルタイム検索機能を視覚理解プロセスに組み込むことで、外部知識を必要とする複雑な視覚タスクを処理できるようになります。

業界への影響と意義

商湯は今回、2つのバージョンをオープンソース化することで、世界中の開発者により柔軟な研究ツールを提供することを目的としています:

8Bバージョン:パフォーマンスと効率をバランスよく考慮し、端末デバイスや限られた計算リソース環境での導入に適しています。

32Bバージョン:より強力な論理的推論の上限を提供し、複雑な産業応用のニーズに対応します。