智源推出 BGE-VL 多模態向量模型，開啓檢索新紀元

在多模態人工智能領域，智源研究院與多所高校合作推出了全新的多模態向量模型 BGE-VL，標誌着多模態檢索技術的一次重大突破。自發布以來，BGE 系列模型便獲得了廣泛讚譽，而 BGE-VL 的推出則進一步豐富了這一生態系統。該模型在圖文檢索、組合圖像檢索等多項關鍵任務中表現出色，展現出其卓越的性能。

BGE-VL 的成功歸功於其背後的 MegaPairs 數據合成技術。這一創新方法通過挖掘現有的大規模圖文數據，自動生成高質量的多模態三元組數據，顯著提升了數據的可擴展性和質量。MegaPairs 能夠以極低的成本生成多樣化的數據集，其包含超過2600萬條樣本，爲多模態檢索模型的訓練提供了豐厚的基礎。這一技術讓 BGE-VL 在多個主流多模態檢索基準上都取得了領先成績。

在多模態檢索日益受到重視的今天，用戶對信息的獲取需求愈發多樣化。以往的檢索模型多依賴於單一的圖文對進行訓練，無法有效應對複雜的組合輸入。而 BGE-VL 通過引入 MegaPairs 數據，克服了這一侷限，使得模型能夠更全面地理解和處理多模態查詢。

智源團隊在多個任務的性能評測中，發現 BGE-VL 模型在 Massive Multimodal Embedding Benchmark（MMEB）上的零樣本性能表現優異，儘管 MegaPairs 未涵蓋 MMEB 中的大部分任務，但其任務泛化能力依然令人振奮。此外，在組合圖像檢索的評測中，BGE-VL 同樣表現突出，大幅超過了衆多知名模型，如谷歌的 MagicLens 和英偉達的 MM-Embed。

未來，智源研究院計劃繼續深化 MegaPairs 技術，結合更豐富的多模態檢索場景，致力於打造更加全面和高效的多模態檢索器，爲用戶提供更爲精準的信息服務。隨着多模態技術的發展，BGE-VL 的推出無疑將推動相關領域的進一步探索與創新。

論文地址:https://arxiv.org/abs/2412.14475

項目主頁:https://github.com/VectorSpaceLab/MegaPairs

模型地址:https://huggingface.co/BAAI/BGE-VL-MLLM-S1

Docker 創始人發佈 Dagger，力圖開源替代 Claude Code！

Docker 的創始人所羅門・海克斯（Solomon Hykes）在社交媒體平臺 X 上宣佈，他可能開發出了一個開源的替代工具，以對抗 Anthropic 推出的 Claude Code。這個新工具是 Dagger 的組成部分，Dagger 是一個用於組合工作流的開源運行時環境。Claude Code 是 Anthropic 推出的一款智能編碼工具，隨 Claude3.7Sonnet 一同發佈。該工具集成在終端中，旨在幫助開發者以更快的速度編寫代碼，而無需複雜的設置。此外，Claude Code 還幫助 Anthropic 加快了內部開發流程。Dagger 的新模塊系統允許開發者將智能特性作爲模塊組件

Runway 發佈新功能：視頻轉視頻新增首幀圖片風格轉換

人工智能視頻生成平臺 Runway 在沉寂數月後通過 X 平臺宣佈推出全新功能，進一步升級其視頻轉視頻（Video to Video）技術。這一更新允許用戶通過添加首幀圖片進行風格轉換，賦予視頻創作更大的靈活性和個性化選擇，在 X 上引發了廣泛關注和熱議。新功能亮相：首幀圖片驅動風格轉換Runway 的官方賬號 @runwayml在 3 月 6 日發帖稱：“使用單一參考圖片爲你的視頻轉視頻生成賦予風格，瞭解詳情請查看今天的 Runway Academy。”與此同時，X 用戶 @op7418在同日詳細介紹：“Runway 沉寂幾個月後終於發

無需訓練！Q-Filters 實現 KV 緩存高效壓縮，提升推理性能

近年來，基於 Transformer 架構的大型語言模型（LLMs）取得了顯著進展，諸如 Gemini-Pro1.5、Claude-3、GPT-4和 Llama-3.1等新模型能夠處理成百上千的token。然而，這些擴展的上下文長度帶來了實際應用中的一些重大挑戰。隨着序列長度的增加，解碼延遲上升，內存限制也成爲了一個嚴重的瓶頸。KV 緩存在推理過程中儲存上下文信息，隨着上下文長度的增加，緩存的大小也呈比例增長，這導致內存飽和，嚴重影響了處理長輸入序列的效率，因此迫切需要優化解決方案。雖然市場上存在一些無訓練的方

美國計劃用AI來識別支持哈馬斯的外國學生並撤銷簽證

據路透社報道，有消息稱美國國務院計劃利用人工智能技術來撤銷那些被視爲支持哈馬斯的外國學生簽證。這一消息引發了人權倡導者和言論自由支持者的廣泛關注和憂慮。根據 Axios 的報道，這項名爲 “捕捉與撤銷” 的計劃將利用 AI 對數以萬計的學生簽證持有者的社交媒體賬戶進行審查，旨在識別潛在的支持哈馬斯的言論。在以色列和哈馬斯之間的衝突背景下，許多學生和團體在美國各地組織了抗議活動，表達對加沙地區巴勒斯坦人境遇的關切。自由言論倡導組織，如 “個體權利與表

智源推出 BGE-VL 多模態向量模型，開啓檢索新紀元

相關推薦

多模態檢索新突破！智源開源多模態向量模型BGE-VL

Docker 創始人發佈 Dagger，力圖開源替代 Claude Code！

Runway 發佈新功能：視頻轉視頻新增首幀圖片風格轉換

無需訓練！Q-Filters 實現 KV 緩存高效壓縮，提升推理性能

美國計劃用AI來識別支持哈馬斯的外國學生並撤銷簽證