Meta 推出全新 Multi-IF 基準，挑戰多輪多語言指令遵循能力

Meta 最近發佈了一項全新的基準測試，名爲 Multi-IF，旨在評估大語言模型（LLM）在多輪對話和多語言環境下的指令遵循能力。這一基準覆蓋了八種語言，包含4501個三輪對話任務，重點探討了當前模型在複雜多輪和多語言場景中的表現。

在現有的評估標準中，大多數集中於單輪對話和單語言任務，難以全面反映模型在實際應用中的表現。而 Multi-IF 的推出正是爲了填補這一空白。研究團隊通過將單輪指令擴展爲多輪指令，生成了複雜的對話場景，並確保每一輪指令在邏輯上連貫、遞進。此外，數據集還通過自動翻譯和人工校對等步驟實現了多語言支持。

實驗結果顯示，大多數 LLM 在多輪對話中的表現顯著下降。以 o1-preview 模型爲例，其在第一輪的平均準確率爲87.7%，但到了第三輪下降至70.7%。特別是在非拉丁文字的語言中，如印地語、俄語和中文，模型的表現普遍低於英語，顯示出在多語言任務上的侷限性。

在對14種前沿語言模型的評估中，o1-preview 和 Llama3.1405B 表現最佳，三輪指令的平均準確率分別爲78.9% 和78.1%。然而，在多輪對話中，所有模型的指令遵循能力普遍下降，反映出模型在複雜任務中的挑戰。研究團隊還引入了 “指令遺忘率”（IFR）來量化模型在多輪對話中的指令遺忘現象，結果顯示高性能模型在這方面的表現相對較好。

Multi-IF 的發佈爲研究人員提供了一個具有挑戰性的基準，推動了 LLM 在全球化和多語言應用中的發展。這一基準的推出，不僅揭示了當前模型在多輪、多語言任務中的不足，也爲未來改進提供了明確方向。

論文:https://arxiv.org/html/2410.15553v2

劃重點:
🌍 Multi-IF 基準覆蓋八種語言，包含4501個三輪對話任務，評估 LLM 在複雜場景中的表現。
📉 實驗顯示，多數 LLM 在多輪對話中的準確率顯著下降，尤其在非拉丁文字的語言中表現較弱。
🔍 o1-preview 和 Llama3.1405B 模型表現最佳，三輪指令的平均準確率分別爲78.9% 和78.1%。

隱私不再是問題！WitNote—— 你的離線 AI 筆記助手

WitNote是一款完全離線的AI筆記工具，由獨立開發者推出，旨在解決用戶對在線AI工具隱私和訂閱費用的擔憂。它支持Windows和macOS平臺，允許用戶在本地使用大語言模型處理筆記，無需聯網，從而避免數據泄露和月費負擔。用戶只需下載並運行即可使用。

1美元跑200個瀏覽器任務！開源瀏覽器操控神器BU-30B-A3B-Preview橫空出世

近日，開源項目BrowserUse發佈自研大語言模型BU-30B-A3B-Preview，被譽爲網頁代理領域新標杆。該模型採用混合專家（MoE）架構，總參數達300億，但推理時僅激活部分參數，兼顧強大性能與輕量化運行，顯著降低了AI瀏覽器操作的成本與門檻。

日本數據科學家推出“零錯誤”編程語言 Sui，聲稱讓大模型寫代碼準確率達100%

日本數據科學家本田崇人推出全新編程語言Sui，其設計理念源自日本美學“粋”，追求極致精煉。該語言通過消除語法錯誤、用數字代替變量名、確保每行代碼獨立運行，旨在解決大模型生成代碼時常見的語法、命名混亂及上下文依賴問題，提升代碼生成質量。

Meta 推出全新 Multi-IF 基準，挑戰多輪多語言指令遵循能力

相關推薦

隱私不再是問題！WitNote—— 你的離線 AI 筆記助手

1美元跑200個瀏覽器任務！開源瀏覽器操控神器BU-30B-A3B-Preview橫空出世

日本數據科學家推出“零錯誤”編程語言 Sui，聲稱讓大模型寫代碼準確率達100%

螞蟻開源 LLaDA2.0，業內首個100B 參數規模的擴散語言模型

阿里通義推出新型強化學習方法 SAPO，讓大語言模型更穩更強

​Meta 推出全新 Multi-IF 基準，挑戰多輪多語言指令遵循能力

相關推薦

隱私不再是問題！WitNote—— 你的離線 AI 筆記助手

1美元跑200個瀏覽器任務！開源瀏覽器操控神器BU-30B-A3B-Preview橫空出世

​日本數據科學家推出“零錯誤”編程語言 Sui，聲稱讓大模型寫代碼準確率達100%

螞蟻開源 LLaDA2.0，業內首個100B 參數規模的擴散語言模型

阿里通義推出新型強化學習方法 SAPO，讓大語言模型更穩更強

Meta 推出全新 Multi-IF 基準，挑戰多輪多語言指令遵循能力

日本數據科學家推出“零錯誤”編程語言 Sui，聲稱讓大模型寫代碼準確率達100%