NVIDIA 推出 Jet-Nemotron：53 倍提速的混合架構語言模型實現 98% 的推理成本節約

近日，NVIDIA 的研究團隊宣佈發佈 Jet-Nemotron，這是一系列全新的語言模型（包含2億和4億參數的版本），其生成速度比當前最領先的全注意力語言模型高出53.6倍，並在準確性上達到了甚至超過了這些模型的水平。這一突破不是通過從頭開始重新訓練模型實現的，而是採用了一種名爲 “後神經架構搜索”(PostNAS)的新技術對現有預訓練模型進行了改造。

隨着現代語言模型的廣泛應用，如 Qwen3、Llama3.2和 Gemma3等，這些模型雖然在準確性和靈活性上設立了新的標杆，但其 O （n²）的自注意力機制造成了計算和內存的高昂成本，尤其是在處理長文本任務時，這使得大規模部署變得異常昂貴，也幾乎不可能在邊緣設備或內存受限的設備上運行。儘管有一些嘗試用更高效的架構替代全注意力 Transformer(如 Mamba2、GLA、RWKV 等)，但在準確性上卻始終難以實現突破，直到現在。

PostNAS 作爲 Jet-Nemotron 的核心創新，主要包括以下幾個步驟:首先，選擇一個最先進的全注意力模型（如 Qwen2.5），並凍結其多層感知器(MLP)層，以保護模型的學習能力並大幅降低訓練成本;接着，用新的硬件高效線性注意力模塊 JetBlock 替換掉計算成本高的全注意力模塊;最後，通過超網絡訓練和束搜索，自動確定最優的全注意力層的位置，從而保持在特定任務上的準確性。

Jet-Nemotron 的性能指標令人矚目:其2B 模型在各大基準測試中與 Qwen3-1.7B-Base 相當或更優，並且生成吞吐量提升了47倍。同時，在256K 上下文長度下，解碼速度的提升達到53.6倍，使得推理成本降低了98%。這爲邊緣設備的部署帶來了變革性的改變。

此外，Jet-Nemotron 的推出意味着企業能夠以更低的成本實現更高的投資回報率。對於從業者而言，Jet-Nemotron 能夠在不改變數據管道的情況下對現有模型進行改造，提升了實時 AI 服務的能力。而對於研究人員而言，PostNAS 降低了語言模型架構創新的成本，加速了 AI 技術的發展。

項目：https://github.com/NVlabs/Jet-Nemotron

劃重點:
🌟 Jet-Nemotron 實現生成速度比現有模型提升53.6倍，推理成本降低98%。
💻 PostNAS 技術允許對現有預訓練模型進行高效改造，保持準確性。
📈 新模型的推出使得企業和研究者能在成本和性能上獲得雙重收益。

阿里通義千問Qwen3-Max 在官網上線深度思考功能

阿里通義千問推出Qwen3-Max模型，新增“深度思考”模式，通過強化推理鏈分析和多步驟問題拆解，顯著提升複雜任務處理效率。該模型參數量超1萬億，預訓練數據達36T tokens，是目前規模最大、能力最強的版本，在代碼和智能體能力方面均有明顯進步。

谷歌DeepMind 發佈 VaultGemma 具備差分隱私能力

谷歌 DeepMind 最近推出了一款名爲 VaultGemma 的新型語言模型，這一創新的技術專注於用戶隱私的保護。VaultGemma 不僅是開源的，而且是目前規模最大的具備差分隱私能力的語言模型，參數數量達到了驚人的10億。這項技術的發佈，標誌着人工智能領域在保護用戶數據隱私方面的重大進步。傳統的大語言模型在訓練過程中可能會不小心記住一些敏感信息，比如姓名、地址和機密文檔等。爲了應對這一挑戰，VaultGemma 引入了差分隱私技術，通過在訓練過程中添加可控的隨機噪聲，確保模型的輸出無

NVIDIA 推出 Jet-Nemotron：53 倍提速的混合架構語言模型實現 98% 的推理成本節約

相關推薦

阿里通義千問Qwen3-Max 在官網上線深度思考功能

蘋果推出全新 FS-DFM 模型，AI 長文本寫作效率提升128倍!

螞蟻發佈萬億參數語言模型 Ling-1T，推理速度與能力引領行業新標杆

谷歌DeepMind 發佈 VaultGemma 具備差分隱私能力

字節Seed推出全新 AgentGym-RL 框架:提升大規模語言模型的決策能力

NVIDIA 推出 Jet-Nemotron：53 倍提速的混合架構語言模型實現 98% 的推理成本節約

相關推薦

阿里通義千問Qwen3-Max 在官網上線深度思考功能

​蘋果推出全新 FS-DFM 模型，AI 長文本寫作效率提升128倍!

螞蟻發佈萬億參數語言模型 Ling-1T，推理速度與能力引領行業新標杆

谷歌DeepMind 發佈 VaultGemma 具備差分隱私能力

​字節Seed推出全新 AgentGym-RL 框架:提升大規模語言模型的決策能力

蘋果推出全新 FS-DFM 模型，AI 長文本寫作效率提升128倍!

字節Seed推出全新 AgentGym-RL 框架:提升大規模語言模型的決策能力