在人工智能邁向實時交互的浪潮中,京東正式開源了其核心成果——實時視頻視覺語言交互模型 JoyAI-VL-Interaction。作爲全球首個全棧開源的交互式視覺模型,該系統不僅獲得了 vLLM-Omni 的深度支持,更標誌着 AI 助手正式從傳統的“被動響應”轉向“邊看邊說”的自主觀察模式。

相比於過去需要等待用戶提問纔開始處理畫面的滯後模式,JoyAI-VL-Interaction 展現出了極高的主動性。它具備持續觀察視頻流的能力,能夠智能判斷何時應當介入交流,何時應當保持沉默,從而在互動中提供更加自然、流暢的體驗。

image.png

這種實時響應能力的提升,對於處理動態信息至關重要。傳統的視頻理解技術往往受限於“先上傳、後分析”的流程,在實時性要求極高的安防監控、直播解說或操作指導等場景中,往往難以滿足需求。JoyAI-VL-Interaction 能夠面向正在發生的視頻流進行即時處理,真正實現了畫面變化與智能響應的同步。

更具技術亮點的是其“後臺委託”機制。在面對生成代碼、複雜推理或工具調用等高難度任務時,模型可以靈活地將任務分流給後臺的 Agent 系統,而前臺模型則繼續保持對現場的實時觀察。這種“觀察與交互”並行的工作流,使得 AI 助手在執行復雜邏輯的同時,依然能維持與用戶的無縫溝通。

在兼容性與擴展性方面,該模型支持攝像頭、直播流及各類監控信號等多種視頻輸入源,並允許開發者根據業務需求,靈活替換 ASR、TTS、長期記憶模塊或外部 API 接口。

根據京東公佈的盲評測試數據,在涵蓋監控預警、實時翻譯、時間感知等58個流式場景的真人測評中,JoyAI-VL-Interaction 的表現相當出色,其總體勝率不僅大幅領先同類產品,更在複雜視覺觸發的交互中展現了顯著優勢。無論是針對科研探索,還是面向安防監控、電商導購、AI 眼鏡等產業級應用,這一開源方案都爲開發者提供了一套極具競爭力的技術基座。