2026年1月30日,商湯科技正式開源了其首個支持動態視覺推理與圖文搜索深度融合的 Agentic VLM 模型——SenseNova-MARS。該模型包含8B 和32B 兩個版本,通過模擬“偵探破案”般的邏輯,實現了 AI 從單純“理解”到自主“執行”的跨越。

性能飛躍:在多項榜單超越 GPT-5.2

最新的行業基準測試中,SenseNova-MARS展現出了驚人的競技狀態:

搜索推理登頂:在 MMSearch(圖文搜索核心評測)中以74.27分 登頂,顯著超過GPT-5.2的66.08分。

細節搜尋領跑:在 HR-MMSearch(高清細節搜索評測)中獲得54.43分,拉開了與主流閉源模型的差距。

多維能力驗證:在 FVQA、InfoSeek 等多個權威視覺理解榜單中,均取得了開源模型中的 SOTA(當前最佳) 成績。

核心黑科技:像人類一樣協同工具

SenseNova-MARS的獨特之處在於其“自主規劃”能力,能夠自動解決“細節識別 + 信息檢索 + 邏輯推理”的複雜長鏈條任務:

圖像細節裁剪:能聚焦佔比不到5% 的微小細節(如賽車手服上的 Logo),並自動放大分析。

動態圖文搜索:在識別物體或人物的瞬間,自動匹配全球範圍內的相關信息,如設備型號或行業數據。

多跳深度推理:面對需要“先放大、再識別、最後查背景”的任務不再束手無策,具備極強的“工具使用直覺”。

訓練祕籍:“因材施教”的雙階段演進

商湯研究團隊通過兩階段訓練,賦予了模型嚴密的邏輯鏈條:

第一階段(打基礎):利用自動化數據合成引擎構建“高難度案例庫”,讓 AI 學習基本的多跳搜索邏輯,確保起步即面對真實複雜場景。

第二階段(練實戰):引入 BN-GSPO 算法進行強化學習,像訓練偵探一樣,通過獎勵機制平滑波動,讓模型在處理各類問題時都能保持穩定進步。

擁抱開源:助力全球開發者

目前,商湯已將SenseNova-MARS的模型、代碼及數據集全量開源。開發者可直接通過 Hugging Face 下載,共同探索具身智能與自主 Agent 的無限可能。