最近、NVIDIAの研究チームはJet-Nemotronを発表しました。これは2億および4億パラメータのバージョンを含む、まったく新しい言語モデルシリーズで、現在の最前線の全アテンション言語モデルよりも生成速度が53.6倍速く、精度もそれらのモデルと同等またはそれ以上となっています。この突破は、モデルを最初から再トレーニングすることではなく、「後ニューラルアーキテクチャ検索(PostNAS)」という新しい技術を用いて既存の事前学習モデルを改造することで実現されました。

image.png

現代の言語モデルが広く応用される中、例えばQwen3、Llama3.2、Gemma3など、これらのモデルは正確性や柔軟性において新たな基準を設定しましたが、O(n²)の自己アテンション機構により計算およびメモリコストが高額となり、特に長文処理タスクでは大規模な展開が非常に高価になり、エッジデバイスやメモリ制限のあるデバイスでの運用はほぼ不可能でした。一部の試みとして、より効率的なアーキテクチャで全アテンションTransformerを置き換えるもの(例:Mamba2、GLA、RWKVなど)が存在しましたが、精度面では常に突破が見られませんでした。それが今になって初めて変わりました。

Jet-Nemotronの中心的イノベーションであるPostNASは、以下のいくつかのステップを含んでいます。まず、最先端の全アテンションモデル(例:Qwen2.5)を選択し、そのマルチレイヤーパーセプトロン(MLP)層を固定して、モデルの学習能力を保護し、トレーニングコストを大幅に削減します。次に、計算コストの高い全アテンションモジュールを置き換えるために、新しいハードウェア効率の良い線形アテンションモジュールJetBlockを使用します。最後に、スーパーネットワークトレーニングと束探索を用いて、最適な全アテンション層の位置を自動的に決定し、特定のタスクにおける精度を維持します。

Jet-Nemotronの性能指標は目を見張るものがあります。2Bモデルは主要なベンチマークテストでQwen3-1.7B-Baseと同等または優れているだけでなく、生成スループットが47倍向上しています。また、256Kのコンテキスト長では、デコード速度が53.6倍向上し、推論コストが98%低下しています。これはエッジデバイスへの展開に画期的な変化をもたらします。

さらに、Jet-Nemotronの登場により、企業は低いコストで高い投資収益率を達成できるようになります。実務家にとっては、データパイプラインを変更することなく既存のモデルを改造でき、リアルタイムAIサービスの能力を向上させます。研究者にとっては、PostNASによって言語モデルのアーキテクチャイノベーションのコストが低下し、AI技術の進展が加速されます。

プロジェクト:https://github.com/NVlabs/Jet-Nemotron

ポイント:

🌟 Jet-Nemotronは、生成速度を現在のモデルの53.6倍に向上させ、推論コストを98%削減しました。

💻 PostNAS技術により、既存の事前学習モデルを効率的に改造することが可能で、精度を維持できます。

📈 新たなモデルの登場により、企業や研究者はコストとパフォーマンスの両方で二重の利益を得られます。