阿里巴巴達摩院開源了一款多語言大型語言模型Babel,其宏偉目標正是彌合語言鴻溝,讓AI能夠理解並使用全球九成以上人口的語言進行交流。
當前許多大型語言模型往往更青睞英語、法語、德語等資源豐富的語言。然而,如同全球會議中鮮少被提及的小語種使用者一樣,印地語、孟加拉語、烏爾都語等擁有龐大用戶羣體的語言在AI領域也常常被忽視。
阿里巴巴的Babel正是要改變這種局面。它支持全球使用人數最多的前25種語言,覆蓋了超過90%的世界人口。更值得稱讚的是,Babel還將目光投向了斯瓦希里語、爪哇語、緬甸語等在開源LLM中鮮有涉獵的語種。這一舉措無疑將爲數十億使用這些語言的人們帶來更便捷、更優質的AI語言服務。

與傳統的持續預訓練方法不同,Babel採用了獨特的層擴展技術來提升模型的能力。這種方法可以理解爲在模型原有的基礎上,以一種更精巧的方式增加“知識儲備”,從而在提升性能的同時,也保證了計算效率. 研究團隊推出了兩款各具特色的模型:Babel-9B,它專爲高效的單GPU推理和微調而優化;以及Babel-83B,這款擁有830億參數的“巨擘”旨在樹立開源多語言LLM的新標杆。

爲了驗證Babel的實力,研究團隊在多個多語言任務上進行了嚴格的評估. 結果令人振奮:無論是90億參數的Babel-9B,還是830億參數的Babel-83B,在多項基準測試中均超越了同等規模的其他開源模型. 例如,Babel在世界知識(MMMLU, M3Exam)、推理(MGSM, XCOPA)、理解(XNLI)和翻譯(Flores-200)等任務上均表現出色。
尤其值得一提的是,Babel在處理資源匱乏的語言時,其準確率相較於以往的多語言LLM提升了5%到10%. 這充分展示了Babel在提升語言覆蓋率的同時,也注重了模型在各種語言上的性能表現。
更令人驚喜的是,通過在超過一百萬個對話數據集上進行監督微調(SFT)後,Babel的聊天版本Babel-9B-Chat和Babel-83B-Chat展現出了強大的對話能力,其性能甚至可以媲美一些頂尖的商業AI模型,例如Babel-83B-Chat在某些任務上已能與GPT-4o一較高下. 這無疑爲開源社區注入了新的活力,證明了開源模型在多語言能力上同樣可以取得領先地位。
項目:https://babel-llm.github.io/babel-llm/
github:https://github.com/babel-llm/babel-llm
