マイクロソフトは最近、Azure ND GB300v6仮想マシンがMetaのLlama270Bモデルで1秒あたり110万tokenの推論速度を達成し、業界で新しい記録を樹立したと発表しました。マイクロソフトCEOのサティア・ナデラ氏はソーシャルメディアで、「この成果は、我々がNVIDIAと長年にわたって行っている協力と、大規模なAI運用における専門知識の結晶です」と述べました。

マイクロソフト

Azure ND GB300仮想マシンはNVIDIAのBlackwell Ultra GPUを使用しており、具体的にはNVIDIA GB300NVL72システムであり、72個のNVIDIA Blackwell Ultra GPUと36個のNVIDIA Grace CPUを搭載しています。これは単機構造設計で、推論ワークロードに最適化されています。GPUメモリは50%向上し、熱設計電力(TDP)は16%向上しています。

性能向上を検証するために、マイクロソフトはNVIDIA GB300NVL72ドメイン内の18台のND GB300v6仮想マシン上でLlama270B(FP4精度)モデルを実行し、NVIDIA TensorRT-LLMを推論エンジンとして使用しました。マイクロソフトは、「1つのNVL72ラックのAzure ND GB300v6は、合計で1秒あたり110万tokenの推論速度を実現しました」と述べています。この新記録は、以前にNVIDIA GB200NVL72ラックで達成した1秒あたり865,000tokenの記録を上回っています。

システム構成によると、各GPUの性能は約1秒あたり15,200tokenです。マイクロソフトは詳細なシミュレーションプロセスおよびすべてのログファイルと結果も提供しています。このパフォーマンス記録は、独立したパフォーマンス検証とベンチマーキング企業であるSignal65によって確認されています。

Signal65のラボ副社長であるラス・フェロス氏はブログで、「このミラーは1秒あたり100万tokenの壁を突破しただけでなく、現代企業の動的な使用やデータガバナンスのニーズに対応できるプラットフォームでも達成されました」と指摘しました。彼はさらに、「Azure ND GB300は前世代のNVIDIA GB200に対して推論性能が27%向上し、電力仕様はわずか17%増加しました。また、NVIDIA H100と比較して、GB300の推論性能はほぼ10倍になり、ラックレベルの電力効率は約2.5倍向上しています」と補足しました。

ポイント:  

🚀 マイクロソフト Azure ND GB300v6仮想マシンは1秒あたり110万tokenの推論を実現し、業界の新たな記録を樹立しました。  

💻 この仮想マシンは72個のNVIDIA Blackwell Ultra GPUと36個のNVIDIA Grace CPUを搭載しており、推論に最適化されています。  

📈 前世代と比較すると、Azure ND GB300は推論性能が27%向上し、電力効率がほぼ2.5倍向上しています。