Meta 最近發佈了一項全新的基準測試,名爲 Multi-IF,旨在評估大語言模型(LLM)在多輪對話和多語言環境下的指令遵循能力。這一基準覆蓋了八種語言,包含4501個三輪對話任務,重點探討了當前模型在複雜多輪和多語言場景中的表現。

image.png

在現有的評估標準中,大多數集中於單輪對話和單語言任務,難以全面反映模型在實際應用中的表現。而 Multi-IF 的推出正是爲了填補這一空白。研究團隊通過將單輪指令擴展爲多輪指令,生成了複雜的對話場景,並確保每一輪指令在邏輯上連貫、遞進。此外,數據集還通過自動翻譯和人工校對等步驟實現了多語言支持。

image.png

實驗結果顯示,大多數 LLM 在多輪對話中的表現顯著下降。以 o1-preview 模型爲例,其在第一輪的平均準確率爲87.7%,但到了第三輪下降至70.7%。特別是在非拉丁文字的語言中,如印地語、俄語和中文,模型的表現普遍低於英語,顯示出在多語言任務上的侷限性。

在對14種前沿語言模型的評估中,o1-preview 和 Llama3.1405B 表現最佳,三輪指令的平均準確率分別爲78.9% 和78.1%。然而,在多輪對話中,所有模型的指令遵循能力普遍下降,反映出模型在複雜任務中的挑戰。研究團隊還引入了 “指令遺忘率”(IFR)來量化模型在多輪對話中的指令遺忘現象,結果顯示高性能模型在這方面的表現相對較好。

Multi-IF 的發佈爲研究人員提供了一個具有挑戰性的基準,推動了 LLM 在全球化和多語言應用中的發展。這一基準的推出,不僅揭示了當前模型在多輪、多語言任務中的不足,也爲未來改進提供了明確方向。

論文:https://arxiv.org/html/2410.15553v2

劃重點:

🌍 Multi-IF 基準覆蓋八種語言,包含4501個三輪對話任務,評估 LLM 在複雜場景中的表現。  

📉 實驗顯示,多數 LLM 在多輪對話中的準確率顯著下降,尤其在非拉丁文字的語言中表現較弱。  

🔍 o1-preview 和 Llama3.1405B 模型表現最佳,三輪指令的平均準確率分別爲78.9% 和78.1%。