在人工智能的世界裏,開源與閉源的較量從未停歇。而今,Meta AI的Llama3.1模型的發佈,似乎爲這場較量畫上了分水嶺。這不僅僅是一個模型的發佈,更是開源AI走向成熟的標誌,預示着一個全新的時代即將到來。

image.png

Llama3.1是由Meta AI團隊開發的新一代大型語言模型。在150多個基準測試中,其405B參數版本的表現不僅追平了現有的最先進模型GPT-4o和Claude3.5Sonnet,更是在某些方面實現了超越。這一成就標誌着開源AI模型首次在性能上與閉源模型並駕齊驅。

image.png

爲了訓練Llama3.1405B模型,Meta大幅優化了整個訓練棧,並首次將模型算力規模擴展到了超過16000個H100GPU。採用標準的僅解碼器的Transformer架構,並進行細微改動,通過迭代的post-training流程,每輪都有SFT(監督微調)和DPO(直接偏好優化),以提高性能。

Meta提高了模型對用戶指令的響應能力,增強了遵循詳細指令的能力,同時保證安全性。在post-training階段,進行多輪對齊,使用合成數據生成大部分SFT示例,並採用多種數據處理技術過濾數據至最高質量。

image.png

技術亮點:

  • 上下文長度擴展:Llama3.1將上下文長度擴展到了128K,這意味着模型能夠處理更復雜的任務,理解更長的文本信息。

  • 多語言支持:模型新增了對八種語言的支持,包括英語、法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語,大大增強了模型的通用性。

  • 性能卓越:在常識、可操縱性、數學、工具使用和多語言翻譯等方面,Llama3.1展現出了卓越的性能。

  • Llama3.1在超過15萬億個token上進行訓練,這一規模的訓練在業界尚屬首次。

  • 模型架構:Llama3.1採用了標準的僅解碼器的Transformer架構,並進行了細微的調整,以提高模型的性能。

Meta的CEO扎克伯格在接受採訪時表示,開源AI將成爲行業的轉折點。他強調,開源AI在開放性、可修改性和成本效率方面具有優勢,並將推動AI技術的普及和發展。

開源AI允許開發者自由地修改代碼,保護數據安全,同時提供了運行效率高且負擔得起的模型。此外,開源AI的發展速度快,有望成爲長期標準。

Meta正與多家公司合作,發展更廣泛的生態系統,支持開發者微調和蒸餾自己的模型。這些模型將在所有主要雲平臺上提供,包括AWS、Azure、Google、Oracle等。

Llama3.1的發佈預示着開源人工智能可能成爲行業標準,爲AI的普及和應用開闢新的道路。

官方詳細介紹:https://ai.meta.com/blog/meta-llama-3-1/