在多模態大語言模型(MLLMs)的推動下,圖像和視頻相關的任務取得了革命性的進展,包括視覺問答、敘述生成和交互式編輯等。然而,實現細粒度的視頻內容理解仍然面臨重大挑戰。這一挑戰涉及像素級的分割、帶有語言描述的跟蹤,以及在特定視頻提示上進行視覺問答等任務。

儘管當前最先進的視頻感知模型在分割和跟蹤任務上表現出色,但它們在開放式語言理解和對話能力方面仍顯不足。此外,視頻 MLLMs 在視頻理解和問答任務上表現良好,但在處理感知任務和視覺提示方面依然力不從心。
現有的解決方案主要有兩種:多模態大語言模型(MLLMs)和引用分割系統。MLLMs 最初致力於改進多模態融合方法和特徵提取器,逐漸發展爲在 LLMs 上進行指令調優的框架,如 LLaVA。近期,研究人員嘗試將圖像、視頻和多圖像分析統一到單一框架中,如 LLaVA-OneVision。同時,引用分割系統也經歷了從基本融合模塊到集成分割和跟蹤的變革。然而,這些解決方案在感知和語言理解能力的全面整合上仍存在不足。
來自 UC Merced、字節跳動種子團隊、武漢大學和北京大學的研究人員提出了 Sa2VA,這是一種開創性的統一模型,旨在實現圖像和視頻的密集基礎理解。該模型通過最小化一次性指令調優,支持廣泛的圖像和視頻任務,克服了現有多模態大語言模型的侷限性。
Sa2VA 創新性地將 SAM-2與 LLaVA 整合,將文本、圖像和視頻統一到共享的 LLM 令牌空間中。此外,研究人員還推出了一個名爲 Ref-SAV 的廣泛自動標註數據集,包含超過72K 個複雜視頻場景中的對象表達,以及2K 個經過人工驗證的視頻對象,以確保穩健的基準能力。
Sa2VA 的架構主要由兩個部分組成:類似 LLaVA 的模型和 SAM-2,採用了一種新穎的解耦設計。LLaVA-like 組件包括處理圖像和視頻的視覺編碼器、視覺投影層以及用於文本令牌預測的 LLM。該系統採用獨特的解耦方式,使得 SAM-2在預訓練的 LLaVA 模型旁邊運作,而不進行直接的令牌交換,從而保持計算效率,並允許與各種預訓練的 MLLMs 進行插拔式功能連接。
研究結果表明,Sa2VA 在引用分割任務中取得了最先進的結果,其 Sa2VA-8B 模型在 RefCOCO、RefCOCO + 和 RefCOCOg 上的 cIoU 評分分別爲81.6、76.2和78.9,超越了 GLaMM-7B 等之前的系統。在對話能力方面,Sa2VA 在 MME、MMbench 和 SEED-Bench 上分別取得了2128、81.6和75.1的優異成績。
此外,Sa2VA 在視頻基準測試中的表現也顯著超過了之前的狀態 - of-the-art VISA-13B,顯示出其在圖像和視頻理解任務中的高效性與有效性。
論文:https://arxiv.org/abs/2501.04001
模型:https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093
劃重點:
🌟 Sa2VA 是一個新穎的統一 AI 框架,實現了圖像與視頻的深度理解,克服了現有多模態模型的侷限性。
📊 該模型在引用分割和對話能力等多項基準測試中均取得了最先進的成績,展現了出色的性能。
🧠 Sa2VA 的設計通過解耦的方式有效整合了視覺和語言理解能力,支持廣泛的圖像與視頻任務。
