近日,艾倫人工智能研究所(AI2)重磅發佈了其最新的大型語言模型——OLMo232B。這款模型一經亮相便自帶光環,因爲它不僅是OLMo2系列的最新力作,更以“完全開放”的姿態,向那些高牆深壘的專有模型發起了強有力的挑戰。

OLMo232B最引人注目的特點莫過於其徹徹底底的開源屬性。AI2大方地公開了這款模型的所有數據、代碼、權重以及詳細的訓練過程. 這種“坦誠相見”的做法,與一些諱莫如深的閉源模型形成了鮮明對比。

AI2希望通過這種開放協作的方式,促進更廣泛的研究和創新,讓全球的研究人員都能站在OLMo232B的肩膀上繼續前行。畢竟,在一個知識共享的時代,藏着掖着可不是長久之計。

320億參數加持:實力比肩甚至超越GPT-3.5Turbo

當然,光有開放的精神還不夠,實力纔是硬道理。OLMo232B擁有320億參數,這是一個相當可觀的數字,標誌着其相比前代有了顯著的規模提升。

更令人興奮的是,在多項被廣泛認可的學術基準測試中,這款開源模型竟然超越了GPT-3.5Turbo和GPT-4o mini!這無疑給開源AI社區注入了一劑強心針,證明了並非只有“財大氣粗”的機構才能做出頂尖的AI模型。看來,用心打磨和巧妙訓練也能實現“小馬拉大車”的奇效

QQ_1742280716141.png

OLMo232B之所以能取得如此亮眼的成績,與其精細的訓練過程密不可分。整個訓練過程分爲兩個主要階段:預訓練和中期訓練。在預訓練階段,模型“啃”下了約3.9萬億tokens的龐大數據集,這些數據來源廣泛,包括DCLM、Dolma、Starcoder和Proof Pile II等。這就像讓模型博覽羣書,廣泛學習各種語言模式。

而中期訓練則專注於Dolmino數據集,這個包含8430億tokens的高質量數據集,涵蓋了教育、數學和學術內容,進一步提升了模型在特定領域的理解能力。這種分階段、有側重的訓練方式,確保了OLMo232B能夠擁有紮實且細緻的語言功底。

“省油小能手”:更少算力跑出更高性能

除了性能卓越,OLMo232B在訓練效率方面也展現出了驚人的實力。據稱,它在達到與領先的開放權重模型相當的性能水平的同時,僅使用了大約三分之一的計算資源,相比之下,像Qwen2.532B這樣的模型需要更多的算力。

這就像一位高效率的工匠,用更少的工具和時間,完成了同樣甚至更出色的作品,充分體現了AI2在資源高效AI開發方面的投入. 這也預示着,未來可能出現更多“平民級”的強大AI模型,不再是少數巨頭的專屬。

OLMo232B的發佈,不僅僅是一款新的AI模型,更象徵着開放和可訪問AI發展道路上的一個重要里程碑。通過提供一個完全開放、且性能足以媲美甚至超越部分專有模型的解決方案,AI2有力地證明了,周密的模型設計和高效的訓練方法能夠帶來巨大的突破。這種開放性將鼓勵全球的研究人員和開發者積極參與,共同推動人工智能領域的進步,最終惠及整個人類社會。

可以預見,OLMo232B的出現,將爲AI研究領域帶來一股清新的空氣。它不僅降低了研究門檻,促進了更廣泛的合作,也爲我們展現了一種更具活力和創新性的AI發展路徑。至於那些依然緊抱“獨家祕方”的AI巨頭們,或許也該考慮一下,擁抱開放,才能贏得更廣闊的未來。

github:https://github.com/allenai/OLMo-core

huggingface:https://huggingface.co/allenai/OLMo-2-0325-32B-Instruct