近日,NVIDIA 的研究團隊宣佈發佈 Jet-Nemotron,這是一系列全新的語言模型(包含2億和4億參數的版本),其生成速度比當前最領先的全注意力語言模型高出53.6倍,並在準確性上達到了甚至超過了這些模型的水平。這一突破不是通過從頭開始重新訓練模型實現的,而是採用了一種名爲 “後神經架構搜索”(PostNAS)的新技術對現有預訓練模型進行了改造。

image.png

隨着現代語言模型的廣泛應用,如 Qwen3、Llama3.2和 Gemma3等,這些模型雖然在準確性和靈活性上設立了新的標杆,但其 O (n²) 的自注意力機制造成了計算和內存的高昂成本,尤其是在處理長文本任務時,這使得大規模部署變得異常昂貴,也幾乎不可能在邊緣設備或內存受限的設備上運行。儘管有一些嘗試用更高效的架構替代全注意力 Transformer(如 Mamba2、GLA、RWKV 等),但在準確性上卻始終難以實現突破,直到現在。

PostNAS 作爲 Jet-Nemotron 的核心創新,主要包括以下幾個步驟:首先,選擇一個最先進的全注意力模型(如 Qwen2.5),並凍結其多層感知器(MLP)層,以保護模型的學習能力並大幅降低訓練成本;接着,用新的硬件高效線性注意力模塊 JetBlock 替換掉計算成本高的全注意力模塊;最後,通過超網絡訓練和束搜索,自動確定最優的全注意力層的位置,從而保持在特定任務上的準確性。

Jet-Nemotron 的性能指標令人矚目:其2B 模型在各大基準測試中與 Qwen3-1.7B-Base 相當或更優,並且生成吞吐量提升了47倍。同時,在256K 上下文長度下,解碼速度的提升達到53.6倍,使得推理成本降低了98%。這爲邊緣設備的部署帶來了變革性的改變。

此外,Jet-Nemotron 的推出意味着企業能夠以更低的成本實現更高的投資回報率。對於從業者而言,Jet-Nemotron 能夠在不改變數據管道的情況下對現有模型進行改造,提升了實時 AI 服務的能力。而對於研究人員而言,PostNAS 降低了語言模型架構創新的成本,加速了 AI 技術的發展。

項目:https://github.com/NVlabs/Jet-Nemotron

劃重點:  

🌟 Jet-Nemotron 實現生成速度比現有模型提升53.6倍,推理成本降低98%。  

💻 PostNAS 技術允許對現有預訓練模型進行高效改造,保持準確性。  

📈 新模型的推出使得企業和研究者能在成本和性能上獲得雙重收益。