顛覆傳統！Mini-o3 開源模型實現超長視覺推理，深度思考不再是難題

近日，字節跳動與香港大學聯合推出了一款全新的開源視覺推理模型 ——Mini-o3，標誌着多輪視覺推理技術的又一重大突破。與以往只能進行1-2輪對話的視覺語言模型（VLM）不同，Mini-o3在訓練時限制了對話輪數爲6輪，但在測試階段卻能將推理輪數擴展至數十輪，極大提升了視覺問題處理的能力。

Mini-o3的強大之處在於其在高難度視覺搜索任務中實現了深度推理，達到當前技術的頂尖水平。這得益於該模型的三個核心設計要素。首先，研究團隊構建了一個名爲 VisualProbe 的視覺探測數據集，包含數千個針對探索性推理設計的視覺搜索難題。其次，他們開發了一種迭代數據收集流程，使模型能夠學習深度優先搜索、試錯探索和目標維持等多種推理策略。最後，研究團隊提出了超輪次掩碼策略，在強化學習過程中避免對達到最大交互輪次的回答進行懲罰，從而有效提升了訓練效率和測試擴展性。

訓練 Mini-o3的過程分爲兩個階段。第一階段是冷啓動監督微調（SFT），旨在激活多輪工具使用能力，研究團隊通過上下文學習方式收集了大量高質量的推理軌跡。第二階段是強化學習(RL)，該階段通過降低圖像像素限制和引入超輪次掩碼機制，極大提高了模型的互動輪次和推理能力。

Mini-o3在多個視覺搜索基準上表現優異，超越了現有的開源模型。研究人員通過對比實驗，發現冷啓動 SFT 和超輪次掩碼技術是提升推理能力的關鍵所在。此外，合理的最大像素預算設置對於模型性能的優化也至關重要。

Mini-o3的推出不僅在技術上實現了新的高度，也爲未來多輪視覺推理的發展提供了新的方向。這個模型的成功標誌着在無需消耗大量訓練資源的情況下，深度思考和複雜推理的實現變得更加可能。

論文地址：https://arxiv.org/pdf/2509.07969

中國科大與字節發佈 MoGA 長視頻生成模型:分鐘級多鏡頭短片一鍵生成

中科大與字節跳動聯合推出端到端長視頻生成模型，能直接生成分鐘級、480p分辨率、24fps的高質量視頻，支持多鏡頭切換。核心創新是底層算法MoGA，這是一種全新注意力機制，專攻長視頻生成難題，標誌着國產視頻生成技術實現關鍵突破。

字節跳動與清華大學攜手開源前沿多模態框架HuMo

字節跳動與清華大學聯合推出開源框架HuMo，專注於人體視頻生成。該框架支持文本、圖像和音頻多模態輸入，協同生成高質量視頻。其名稱“Human-Modal”體現了以人類活動爲核心的理念，並通過構建高質量數據集推動該領域發展。

顛覆傳統！Mini-o3 開源模型實現超長視覺推理，深度思考不再是難題

相關推薦

字節火山引擎啓動高薪招聘，實質性進軍“人形具身機器人”賽道

字節跳動 AI 編程工具 Trae 下架 Claude 模型，Pro 會員獲補償

中國科大與字節發佈 MoGA 長視頻生成模型:分鐘級多鏡頭短片一鍵生成

字節跳動AI助手Cici在海外多國應用榜登頂：與國內豆包採用雙品牌策略

字節跳動與清華大學攜手開源前沿多模態框架HuMo