カムリアンは今日、vLLM推論フレームワークを基盤として、DeepSeekの最新オープンソースモデルDeepSeek-V4全シリーズの「Day0」対応を完了したと発表しました。今回の改造には、285BパラメータのFlashバージョンと1.6TパラメータのProバージョンが含まれており、モデルがリリース当日にカムリアンのハードウェアプラットフォーム上で安定して動作することを確保しています。関連する改造コードはGitHubコミュニティに正式にオープンソース化されています。

DeepSeek-V4独自の疎なアテンションと圧縮構造に対し、カムリアンは自社開発のベクトル結合演算ライブラリであるTorch-MLU-Opsを使用して、Compressorなどのコアモジュールを専門的に高速化しました。BangCという高性能プログラミング言語を活用し、カムリアンチームは疎なアテンションやGroupGemmなどのホットな演算子の最適化カーネルを開発し、vLLMフレームワーク内でTP/PP/SP/DP/EPの5次元ハイブリッド並列戦略、低精度量化およびPD分離デプロイを全面的にサポートしました。これらの技術手段により、遅延制約を満たしつつ、エンドツーエンドの推論におけるトークンスループットが大幅に向上しました。

ハードウェア面では、カムリアンはMLUのメモリアクセスとソート加速特性を深く掘り下げ、DeepSeek-V4の複雑なインデックス構造への対応を可能にしました。高帯域幅かつ低遅延通信の優位性を活かして、この設計はPrefillおよびDecodeシナリオにおける通信ロスを最大限に削減し、推論効率を向上させました。

業界分析によると、DeepSeek-V4は百万文字(1M)の超長文脈と最高水準の論理的推論性能を持つため、下層の計算アーキテクチャに厳しい要件を課します。カムリアンがモデルリリース当日に迅速に適応したことは、国内の計算力プラットフォームが超大規模で複雑な構造のモデルを扱える能力を示しており、また国内のAI産業チェーンがソフトウェアとハードウェアの協調において成熟期に入っていることを示唆しています。これにより、大規模モデルの普及に向けて効率的な計算力の基盤が提供されるようになりました。