近日,字節跳動與香港大學聯合推出了一款全新的開源視覺推理模型 ——Mini-o3,標誌着多輪視覺推理技術的又一重大突破。與以往只能進行1-2輪對話的視覺語言模型(VLM)不同,Mini-o3在訓練時限制了對話輪數爲6輪,但在測試階段卻能將推理輪數擴展至數十輪,極大提升了視覺問題處理的能力。

image.png

Mini-o3的強大之處在於其在高難度視覺搜索任務中實現了深度推理,達到當前技術的頂尖水平。這得益於該模型的三個核心設計要素。首先,研究團隊構建了一個名爲 VisualProbe 的視覺探測數據集,包含數千個針對探索性推理設計的視覺搜索難題。其次,他們開發了一種迭代數據收集流程,使模型能夠學習深度優先搜索、試錯探索和目標維持等多種推理策略。最後,研究團隊提出了超輪次掩碼策略,在強化學習過程中避免對達到最大交互輪次的回答進行懲罰,從而有效提升了訓練效率和測試擴展性。

訓練 Mini-o3的過程分爲兩個階段。第一階段是冷啓動監督微調(SFT),旨在激活多輪工具使用能力,研究團隊通過上下文學習方式收集了大量高質量的推理軌跡。第二階段是強化學習(RL),該階段通過降低圖像像素限制和引入超輪次掩碼機制,極大提高了模型的互動輪次和推理能力。

image.png

Mini-o3在多個視覺搜索基準上表現優異,超越了現有的開源模型。研究人員通過對比實驗,發現冷啓動 SFT 和超輪次掩碼技術是提升推理能力的關鍵所在。此外,合理的最大像素預算設置對於模型性能的優化也至關重要。

image.png

Mini-o3的推出不僅在技術上實現了新的高度,也爲未來多輪視覺推理的發展提供了新的方向。這個模型的成功標誌着在無需消耗大量訓練資源的情況下,深度思考和複雜推理的實現變得更加可能。

論文地址:https://arxiv.org/pdf/2509.07969