商湯開源 SenseNova-MARS：Agentic VLM 賦予 AI 獨立“思考與行動”力

2026年1月30日，商湯科技正式開源了其首個支持動態視覺推理與圖文搜索深度融合的 Agentic VLM 模型——SenseNova-MARS。該模型包含8B 和32B 兩個版本，通過模擬“偵探破案”般的邏輯，實現了 AI 從單純“理解”到自主“執行”的跨越。

性能飛躍:在多項榜單超越 GPT-5.2

在最新的行業基準測試中，SenseNova-MARS展現出了驚人的競技狀態:

搜索推理登頂:在 MMSearch（圖文搜索核心評測）中以74.27分登頂，顯著超過GPT-5.2的66.08分。

細節搜尋領跑:在 HR-MMSearch（高清細節搜索評測）中獲得54.43分，拉開了與主流閉源模型的差距。

多維能力驗證:在 FVQA、InfoSeek 等多個權威視覺理解榜單中，均取得了開源模型中的 SOTA（當前最佳）成績。

核心黑科技:像人類一樣協同工具

SenseNova-MARS的獨特之處在於其“自主規劃”能力，能夠自動解決“細節識別 + 信息檢索 + 邏輯推理”的複雜長鏈條任務:

圖像細節裁剪:能聚焦佔比不到5% 的微小細節（如賽車手服上的 Logo），並自動放大分析。

動態圖文搜索:在識別物體或人物的瞬間，自動匹配全球範圍內的相關信息，如設備型號或行業數據。

多跳深度推理:面對需要“先放大、再識別、最後查背景”的任務不再束手無策，具備極強的“工具使用直覺”。

訓練祕籍:“因材施教”的雙階段演進

商湯研究團隊通過兩階段訓練，賦予了模型嚴密的邏輯鏈條:

第一階段（打基礎）:利用自動化數據合成引擎構建“高難度案例庫”，讓 AI 學習基本的多跳搜索邏輯，確保起步即面對真實複雜場景。

第二階段（練實戰）:引入 BN-GSPO 算法進行強化學習，像訓練偵探一樣，通過獎勵機制平滑波動，讓模型在處理各類問題時都能保持穩定進步。

擁抱開源:助力全球開發者

目前，商湯已將SenseNova-MARS的模型、代碼及數據集全量開源。開發者可直接通過 Hugging Face 下載，共同探索具身智能與自主 Agent 的無限可能。

商湯開源SenseNova-Vision統一視覺大模型，單模型橫掃四大核心視覺任務

商湯發佈並開源“日日新SenseNova-Vision”視覺大模型，核心是將視覺能力原生融入通用基礎模型，打破傳統將檢測、分割等專家模型打包的割裂模式。該模型以單模型在多項評測中實現了四大領域的性能碾壓，標誌着視覺任務向統一原生架構的關鍵升級。

視覺模型新突破：商湯開源 SenseNova-Vision-7B-MoT