正文

商湯重磅開源 SenseNova-MARS：開啓多模態自主推理新篇章

發布於AI新閒資訊

時間 :Jan 30, 2026

閱讀 :1分鐘

2026年1月29日，商湯科技正式宣佈開源其多模態自主推理模型 SenseNova-MARS，並同步提供8B 和32B 兩個版本。這款模型的發佈，標誌着多模態大模型在自主推理領域邁出了關鍵一步。

技術突破:首個 Agentic VLM 模型

SenseNova-MARS在技術架構上實現了顯著創新，是行業內首個將動態視覺推理與圖文搜索深度融合的 Agentic VLM（智能體視覺語言模型）。

自主推理:模型不僅能理解圖像內容，更具備類似智能體的自主規劃與推理能力。

深度融合:通過將實時搜索能力融入視覺理解過程，模型能夠處理需要外部知識支撐的複雜視覺任務。

行業影響與意義

商湯此次選擇雙版本開源，旨在爲全球開發者提供更具靈活性的研究工具:

8B 版本:兼顧性能與效率，適合在端側設備或有限算力環境下部署。

32B 版本:提供更強大的邏輯推理上限，滿足複雜行業應用的需求。

英偉達推出統一音頻智能模型 Nemotron-Labs-Audex-30B-A3B

NVIDIA推出統一音頻-文本大模型Audex，基於純文本MoE架構，採用單一Transformer，解決多模態模型音頻增強導致文本邏輯下降的難題，實現高效音頻理解與文本能力的平衡。

谷歌DeepMind的文生視頻模型Gemini Omni Flash在權威盲測排行榜Video Arena中以1404Elo分躍居第一，彰顯谷歌多模態技術實力，也印證視頻生成領域正高速迭代。

商湯科技正祕密研發多模態大模型“U1Pro”，面向設計場景，由首席科學家林達華牽頭。該模型隸屬“日日新”家族，目標對標OpenAI的GPT-Image2，強調長程邏輯與思考能力，預計7月啓動內測並商用。

全球AI領域正經歷“AI母語”技術變革。針對當前大模型“語言中心、外掛視覺或語音”的拼湊架構，團隊發佈並開源了原生多模態大模型LongCat-Next及離散分詞器，旨在打破模態壁壘，讓AI像處理文字一樣理解物理世界。核心是通過重構底層架構實現突破。

字節跳動開源視頻生成與編輯統一框架Bernini，核心採用“先理解、再生成”的協同機制，解決傳統模型因無法精準理解複雜文本指令導致的畫面失控、幀間閃爍等痛點，突破主體變形、背景漂移等瓶頸。

智啟未來，您的人工智能解決方案智庫