螞蟻集團旗下的百靈大模型系列於今日迎來重要更新,Ling-2.6-flash正式向全球開發者開放。爲了適配差異化的硬件環境並降低部署門檻,該模型同步推出了 BF16、FP8以及 INT4等多個精度版本,旨在爲開發者提供更具彈性的推理選擇。

作爲一款總參數量達到104B、激活參數量爲7.4B 的 Instruct 模型,Ling-2.6-flash在正式官宣前,曾以“Elephant Alpha”的匿名身份在 OpenRouter 平臺先行測試。在爲期兩週的試運行中,研發團隊吸收了大量真實反饋,對模型進行了針對性優化,顯著增強了中英文自然切換的流暢度,並使其在主流編程框架中的適配表現更加出色。

image.png

技術亮點:混合架構與極致效率

Ling-2.6-flash的核心競爭力集中體現在其獨特的架構設計與極高的運行效率上:

  • 混合線性架構: 通過底層的計算優化,模型展現了極佳的推理速度。在4卡 H20環境下,其推理速度最高可達340tokens/s。在 Prefill(預填充)吞吐指標上,更是達到了 Nemotron-3-Super 的2.2倍,大幅縮短了響應延遲。

  • 出色的“智效比”: 研發團隊在訓練過程中對 Token 效率進行了深度校準。評測數據顯示,完成同等質量的任務,Ling-2.6-flash僅需消耗約15M tokens,這一數值僅爲同類競品的十分之一,極大地降低了商用成本。

場景深耕:定向增強智能體能力

針對當前大模型應用最廣泛的 Agent(智能體)場景,Ling-2.6-flash進行了專項強化。無論是在複雜的工具調用、邏輯多步規劃,還是最終的任務執行力上,該模型都表現穩健。在 BFCL-V4、SWE-bench 等多項行業主流評測中,即便面對激活參數規模更大的模型,Ling-2.6-flash依然能夠維持相近甚至達到行業頂尖(SOTA)的水平。

目前,開發者已可通過 Hugging Face 和 ModelScope(魔搭社區)獲取該模型的開源資源,進一步探索其在各類行業應用中的潛力。