在AI智能體(Agent)向複雜、多步任務演進的關鍵階段,開源社區迎來一員新銳猛將。Jan團隊今日正式發佈 Jan-v2-VL-Max——一款300億參數的多模態大模型,專爲長週期、高穩定性自動化執行場景打造,在關鍵指標上已超越谷歌Gemini2.5Pro與DeepSeek R1,爲開源Agent生態注入強勁動力。

聚焦“誤差累積”難題,專治多步執行“失焦”
當前多模態Agent在執行長序列操作(如自動化UI操作、跨應用任務流)時,常因中間步驟微小偏差導致後續任務全面偏離,即“誤差累積”問題。Jan-v2-VL-Max針對性引入 LoRA-based RLVR(Reinforced Long-horizon Vision-Language Reasoning)技術,在保持Qwen3-VL-30B基座能力的同時,顯著提升推理鏈的一致性與抗干擾能力,確保任務在數十步操作後仍精準執行。
“幻象遞減回報”測試登頂,定義Agent新基準
該模型在全新評測基準 “幻象遞減回報”(Hallucination-Decay Return, HDR)中表現突出。該基準專門衡量Agent在任務長度延伸過程中,因幻覺或邏輯斷裂導致回報率下降的速度。Jan-v2-VL-Max在長序列任務中維持高回報穩定性,超越Gemini2.5Pro與DeepSeek R1,驗證其在真實自動化場景中的可靠性。

即開即用,支持本地高效部署
爲降低使用門檻,Jan團隊提供:
- 網頁端直接交互界面,用戶可上傳圖像、輸入指令,測試多步自動化流程;
- vLLM優化本地部署方案,支持在消費級GPU上高效運行,便於開發者集成至自研Agent系統。
開源社區的“長思考”突破
Jan-v2-VL-Max雖在長序列執行上相較基座模型僅實現“小幅提升”,但在Agent領域,每1%的穩定性提升都意味着可用性質變。這一成果標誌着開源社區正從“單步響應”邁向“長程規劃”,爲UI自動化、機器人控制、多工具協同等高價值場景提供可落地的開源基座。
AIbase認爲,當大模型競爭從“誰更聰明”轉向“誰更可靠”,Jan團隊此次聚焦執行穩定性的技術路徑,恰逢其時。在Agent即將成爲AI主交互範式的浪潮下,Jan-v2-VL-Max或將成爲開發者構建“永不掉鏈子”智能體的關鍵拼圖。
