螞蟻集團近日宣佈,開源了其最新研發的旗艦大模型 ——Ling-1T,該模型擁有高達萬億個參數,是目前已知使用 FP8低精度模式訓練的最大基座模型。Ling-1T 由螞蟻內部的 “百靈” 團隊開發,標誌着人工智能技術的又一次突破。

image.png

根據團隊的介紹,Ling-1T 隸屬於 Ling2.0模型家族,該家族分爲三大系列:Ling 系列、Ring 系列和 Ming 系列。Ling 系列專注於處理通用任務,以速度和效率爲核心,而 Ring 系列則關注深度思考和複雜推理,Ming 系列則是多模態模型,能夠處理更爲豐富的信息類型。

Ling-1T 擁有1萬億參數,但在處理每個 token 時,實際激活的參數只有約500億,極大地降低了運算成本。爲了支撐如此龐大的模型,螞蟻團隊提出了 “Ling 縮放定律”,經過300多個模型的實驗,總結出計算效率與專家激活比例之間的關係。此外,他們研發了名爲 WSM 的學習率調度器,能在訓練過程中自動調整學習策略,以確保模型穩定高效地訓練。

Ling-1T 的訓練過程分爲三個階段:預訓練、中訓練和後訓練。在預訓練階段,模型接觸了超過20萬億個 token 的數據,其中包含大量推理密集型語料。中訓練階段則專注於強化模型的推理能力,後訓練階段則通過 “演進式思維鏈” 技術進行自我迭代,提升推理精度。

在與其他主流模型的對比中,Ling-1T 在多個測試中表現出色,尤其是在數學推理和代碼生成能力上,展現了其卓越的性能。社區測試中,Ling-1T 也在複雜任務中表現亮眼,如成功模擬物理現象和宇宙演化等。

儘管 Ling-1T 展現了強大的能力,仍存在一些侷限性,比如在處理超長上下文時的成本較高。螞蟻團隊已表示,正在研究新的混合注意力架構以解決這一問題。

開源地址:  

HuggingFace:https://huggingface.co/inclusionAI/Ling-1T  

GitHub:https://github.com/inclusionAI/Ling-V2  

劃重點:  

🔍 Ling-1T 是目前已知最大的萬億參數模型,使用 FP8低精度模式訓練。  

🚀 該模型在數學推理和代碼生成方面超越了多個主流模型,展現出色性能。  

⚙️ 螞蟻團隊正在研究新架構以解決 Ling-1T 在超長上下文處理上的成本問題。