階躍星辰近日宣佈開源其最新多模態視覺語言模型Step3-VL-10B。該模型僅憑10B 的參數規模,在多項基準測試中展現出了跨級別的競技狀態,成功解決了小參數量模型難以兼顧高智能水平的行業痛點。

image.png

在覈心性能測試中,Step3-VL-10B不僅在視覺感知、邏輯推理和數學競賽等維度達到了同規模 SOTA 水平,更實現了對規模大其10到20倍的開源模型(如 Qwen3-VL-Thinking235B 等)以及頂級閉源旗艦模型的媲美甚至超越。依託全參數端到端多模態聯合預訓練和大規模強化學習迭代,該模型在 AIME 等高難度數學競賽測試中已步入世界第一梯隊。

此次開源涵蓋了 Base 和 Thinking 兩個版本。得益於創新的並行協調推理機制(PaCoRe),模型在處理高精度 OCR、複雜計數及空間拓撲理解等任務時表現尤爲穩健。這意味着原本依賴雲端運行的複雜多模態推理能力,現在可以更低成本地部署在手機、電腦等端側設備上,大幅提升了端側 Agent 的交互效率。

  • 項目主頁:https://stepfun-ai.github.io/Step3-VL-10B/

  • 論文鏈接:https://arxiv.org/abs/2601.09668

  • HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b

  • ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

劃重點:

  • 🚀 小參數跨級反超:Step3-VL-10B以10B 規模挑戰並超越了200B 級的巨量模型,實現了性能與規模的極致槓桿比。

  • 🧠 深層邏輯與感知:引入 PaCoRe 機制及大規模強化學習,在競賽級數學、複雜 GUI 感知及3D 空間推理等領域達到世界頂尖水平。

  • 📱 端側智能下沉:支持高性能多模態能力在低算力設備運行,爲手機和工業嵌入式設備的“主動理解與交互”提供了強力底座。