清华大学と腾讯混元がMLSys2026 MoE推論チャレンジで優勝 NPU推論のスピードを4.1倍に向上

清华大学ストレージラボとテンセント・ホンユアンAI Infraチームは、国際的な機械学習システムのトップ会議MLSys2026で開催されたMoEモデル推論最適化チャレンジにおいて、世界チャンピオンを獲得しました。

トレーニングに数兆パラメータを持つ混合エキスパート（MoE）アーキテクチャが非均質なチップ（NPU）上で推論性能の限界に直面している中、共同チームは公式指定モデルおよびNPUハードウェアに対して全フロント最適化ソリューションを開発しました。エキスパートごとにタスクを分割するE-Shard戦略、PSUM三次元テンソルバッチ読み込み、出力を複数Bankに分散して並列処理するGEMVパス、そしてスカラエンジンを利用して初期データ転送遅延を低下させるなどの組み合わせにより、データ転送不足やアクティベーションの再転送などの下位演算子の問題を成功裏に解決しました。

また、アテンションモジュールに関して、チップ上でのデータレイアウトを再構築し、Transformerの重要な演算子を統合することで、ビット単位の高精度の整合性を実現しました。

図3：MoE最適化構造の概要図。E-Shardエキスパート分割、連続DMA、PSUM/GEMV並行処理、コールドスタートパイプライン、プリフェッチ制御を含む。

この競争では、チームは「Knight」というエージェントベースの推論演算子オプティマイザを開発・共同しました。これは、提案、コードの実装、反省と改善の自動化されたループを通じて、最適化の探索空間を大幅に拡大します。最終的に、このソリューションによりモデルのエンドツーエンド推論時間を14.91秒から3.56秒に短縮し、性能は4.1倍に向上しました。1ステップのデコード遅延は12.63ミリ秒から5.45ミリ秒に減少し、重みロード中のDMAエンジン利用率は約80%まで上昇しました。

スタンフォードやMITなど国際的なトップ大学を倒して優勝したことは、中国チームが大規模モデルの下層システムへの適合性と演算子最適化における深い蓄積を示しており、今後の超ノード演算力プラットフォームにおける数兆パラメータを持つMoEモデルの配置に非常に価値のある工学的モデルを提供しています。

混元の再構築後初の公開でHy3 previewをリリース：全般的な実用性を強化し、エージェント機能が大幅に向上

騰訊混元は4月23日にHy3preview言語モデルを発表し、オープンソース化しました。これは、速い思考と遅い思考を統合した混合専門家モデルであり、全体パラメータ数は295Bで、アクティブパラメータ数は21B、コンテキスト長は256Kをサポートしています。再構築後の最初のモデルとして、複雑な推論、指示の遵守、コンテキスト学習、コードおよびエージェントなどの能力が顕著に向上しており、混元において最も知能が高いモデルです。2026年2月に、騰訊混元は予訓練と強化学習のインフラストラクチャーを再構築し、モデルの実用性を重視しました。

DeepSeek オープンソースウィーク2日目：MoEモデル向け初のオープンソースEP通信ライブラリ

Deepseekはオープンソースウィーク2日目の成果として、MoEモデル向けの初のオープンソースEP通信ライブラリを発表しました。混合専門家モデルのトレーニングと推論のフルスタック最適化を実現しています。DeepEPは、混合専門家（MoE）と専門家並列処理（EP）向けに設計された、高効率な通信ライブラリです。高スループットと低遅延の多対多GPUカーネル（一般的にMoEスケジューリングと組み合わせと呼ばれます）を提供することに重点を置いています。DeepEPは、FP8などの低精度演算をサポートするだけでなく、DeepSeek-V3論文とも連携しています。

世界最速の成長！海螺AI、9月アクセス数が867％急増し、Runwayの強力な競合に

世界的なAI動画生成分野で新たな競争の波が押し寄せる中、中国のテクノロジー企業MiniMaxの海螺AIがその驚異的なパフォーマンスで注目を集めています。データによると、今年4月に誕生したこのAI製品は、9月にアクセス数が867.41％も増加し、世界中のAI製品のアクセス増加率ランキングで首位に躍り出ました。この製品のコアとなる競争力は、その基盤となる技術にあります。MiniMaxは、数兆パラメーターのMoEモデルabab-6.5に基づいて海螺AIを開発し、GPT-4、Cl…

OpenClaw エンジニアの警告：AI生成コードはセキュリティ上の危険を引き起こす可能性がある

OpenClawプロジェクトに参加する2人のエンジニアが警告する。AIツールが低品質で安全上のリスクを伴うコードを大量に生成している。問題はAI自体ではなく、開発者の過度な依存にある。多くの開発者が曖昧なプロンプトでコードを生成し、十分なレビューなしに公開しており、深刻な結果を招く可能性がある。....

マイクロソフトが新規Fara1.5シリーズのエージェントモデルを発表。タスク成功率は72%で、OpenAIを上回りました！