このたび、アリババグループは業界で初めての高性能な拡散言語モデル推論フレームワーク「dInfer」をオープンソース化しました。このフレームワークの登場により、拡散言語モデルの推論速度に大きな飛躍が生まれ、この新しい技術が実際の応用へと一歩前進したことを意味しています。
最新のベンチマークテストでは、dInfer の推論速度はNVIDIAのFast-dLLMフレームワークよりも驚くべき10.7倍高速です。コード生成タスクのHumanEvalにおいて、dInferは単一の推論で1秒間に1011トークンを達成し、これは開源コミュニティで初めて拡散言語モデルの推論速度が従来の自己回帰モデルを大幅に上回る成果となりました。このような進展により、拡散言語モデルの将来に対する期待が高まり、それが汎用人工知能(AGI)への重要な技術的道筋となると考えられています。

拡散言語モデルの特徴は、テキスト生成を「ランダムノイズから段階的に完全なシーケンスを復元する」ノイズ除去プロセスとして捉える点にあり、高い並列性、グローバルな視野、そして構造の柔軟性を持っています。理論的には大きな可能性を秘めているものの、実際の推論においては高コストな計算やKVキャッシュの失効、並列デコードなどの課題によって制限されてきました。これらの問題により、拡散言語モデルの推論速度は十分に発揮されず、突破が求められていました。
こうした課題に対応するため、dInferは拡散言語モデル専用に設計されており、4つの主要モジュールを含んでいます。それは、モデル接続、KVキャッシュマネージャー、拡散イテレーションマネージャー、およびデコード戦略です。このようなモジュール化された設計により、開発者は各モジュールを柔軟に組み合わせて最適化でき、統一されたプラットフォーム上で標準的な評価を行うことが可能です。
8枚のNVIDIA H800 GPUを搭載したノードで、dInferの性能は非常に優れています。Fast-dLLMとの比較では、dInferは品質が同等であるにもかかわらず、平均推論速度は1秒あたり681トークンに達し、一方でFast-dLLMはわずか63.6トークン/秒でした。また、業界トップクラスの推論サービスフレームワークvLLMで動作する自己回帰モデルQwen2.5-3Bと比較すると、dInferの速度はその2.5倍に達します。
アリババグループは、dInferの公開が先端研究と産業応用をつなぐ重要な一歩であると述べており、世界中の開発者や研究者が一緒に拡散言語モデルの巨大な潜在能力を探求し、より効率的でオープンなAIエコシステムを構築することを期待しています。
