カンブリア記がDeepSeek-V4全シリーズモデルのDay0対応を発表し、最適化コードをオープンソース化

カムリアンは今日、vLLM推論フレームワークを基盤として、DeepSeekの最新オープンソースモデルDeepSeek-V4全シリーズの「Day0」対応を完了したと発表しました。今回の改造には、285BパラメータのFlashバージョンと1.6TパラメータのProバージョンが含まれており、モデルがリリース当日にカムリアンのハードウェアプラットフォーム上で安定して動作することを確保しています。関連する改造コードはGitHubコミュニティに正式にオープンソース化されています。

DeepSeek-V4独自の疎なアテンションと圧縮構造に対し、カムリアンは自社開発のベクトル結合演算ライブラリであるTorch-MLU-Opsを使用して、Compressorなどのコアモジュールを専門的に高速化しました。BangCという高性能プログラミング言語を活用し、カムリアンチームは疎なアテンションやGroupGemmなどのホットな演算子の最適化カーネルを開発し、vLLMフレームワーク内でTP/PP/SP/DP/EPの5次元ハイブリッド並列戦略、低精度量化およびPD分離デプロイを全面的にサポートしました。これらの技術手段により、遅延制約を満たしつつ、エンドツーエンドの推論におけるトークンスループットが大幅に向上しました。

ハードウェア面では、カムリアンはMLUのメモリアクセスとソート加速特性を深く掘り下げ、DeepSeek-V4の複雑なインデックス構造への対応を可能にしました。高帯域幅かつ低遅延通信の優位性を活かして、この設計はPrefillおよびDecodeシナリオにおける通信ロスを最大限に削減し、推論効率を向上させました。

業界分析によると、DeepSeek-V4は百万文字（1M）の超長文脈と最高水準の論理的推論性能を持つため、下層の計算アーキテクチャに厳しい要件を課します。カムリアンがモデルリリース当日に迅速に適応したことは、国内の計算力プラットフォームが超大規模で複雑な構造のモデルを扱える能力を示しており、また国内のAI産業チェーンがソフトウェアとハードウェアの協調において成熟期に入っていることを示唆しています。これにより、大規模モデルの普及に向けて効率的な計算力の基盤が提供されるようになりました。

騰訊クラウド TokenHub が DeepSeek-V4 のプレビュー版をリリース、百万レベルのコンテキストをサポート

騰訊クラウドは、TokenHubプラットフォームで DeepSeek-V4 のプレビュー版 API を導入し、百万レベルのコンテキスト長をサポートしており、自然言語処理能力が大幅に向上しています。価格は DeepSeek の公式と一致しており、高コストパフォーマンスなサービスを提供し、国際サイトのシンガポールノードでも同時にリリースされ、グローバルユーザーをカバーしています。

カンブリア記がDeepSeek-V4を成功裏に適合させ、AIモデルの効率的な実行を推進

寒武紀公司は、深度求索社のオープンソースAIモデルDeepSeek-V4のDay 0適応に成功し、公開当日から安定動作を実現した。自社開発の融合演算子ライブラリTorch-MLU-Opsを用いて、モデル内のCompressor、mHCなどのモジュールを特化して高速化し、推論効率を大幅に向上させた。また、vLLM推論フレームワークを採用し、より効率的なAI体験を提供する。....

DeepSeek-V4がリリース！パフォーマンスは頂級の非公開モデルに迫る。百万の文脈を備え、1元から

DeepSeekは4月24日、次世代大規模モデルDeepSeek-V4を発表。性能はトップ級クローズドモデルに匹敵し、オープンソースAIのマイルストーンに。100万トークンの超長文脈対応で、長文書分析、コード生成、マルチタスクに最適。軽量版Flashと標準版も同時リリース。....

DeepSeek-V4のベータ版が正式リリースされました：1Mに及ぶ長文のコンテキストが全員に利用可能に

深度求索がDeepSeek-V4シリーズプレビュー版を公開・オープンソース化。100万字超の長文コンテキストを実現し、エージェント協調や知識推論で国内トップレベルに。Pro版（1.6Tパラメータ、アクティブ49B）とFlash版を提供。Proはトップクローズドモデルに匹敵、Flashは効率性を重視。....

8億ドルの価値があるコンピューティング・コアが登場：vLLMの元チームがインフェラクトとして世界中のAI推論の王座を狙う