MiniMaxはM2.5モデルを発表しました。これは、M2シリーズの108日間以内に3番目のバージョンであり、モデルのオープンソース重みが同時に魔搭ModelScopeに公開され、能力、効率、コストの3つの突破を実現しました。プログラミング、検索、オフィスなどの多様なシナリオで優れたパフォーマンスを示し、ゼロコードでの使用からプライベート配備までのフルフロー接続方案を提供し、ツール呼び出しや推論パラメータ最適化に関する完全な実践ガイドも提供しており、低コストエージェント時代の到来を推進しています。

コア機能が多方面で突破
M2.5は複数の権威ある評価で優れた成績を収めています。SWE-Bench Verifiedは80.2%に達し、GPT-5.2を上回り、Claude Opus4.5に近づいています。Multi-SWE-Benchでは51.3%で多言語プログラミング能力の業界トップを記録し、BrowseCompは76.3%に達し、検索とツール呼び出し能力が大幅に優れています。プログラミングにおいては、アーキテクトレベルの計画能力が顕著に現れ、開発ライフサイクル全体をカバーし、マルチプラットフォーム全スタック開発をサポートし、フレームワークの汎用性はClaude Opus4.6を凌駕しています。検索面では、20%のループ消費量を削減し、エキスパートレベルの検索タスクでの表現が卓越しています。オフィスシーンでは金融・法務などの業界知識が統合され、高次オフィス能力が突出しており、内部評価で主流モデルに対する勝率は59.0%です。同時に、M2.5はM2.1より37%速く、Claude Opus4.6と同程度の時間で動作し、コストはその1/10です。
技術革新が高速なイテレーションを実現
M2.5の急速な進化は、三大コア技術革新によって実現されています。第一にForgeオリジナルAgent RLフレームワークにより、約40倍のトレーニング加速が可能になりました。第二にCISPOアルゴリズムにより、大規模トレーニングの安定性が保証され、長文の信用配分問題が解決されました。第三に、Reward設計の創新により、モデルの性能と応答速度のバランスが取れました。この技術により、MiniMax社内では30%の日常的なタスクと80%の新規提出コードがM2.5で処理されており、M2シリーズの108日間におけるSWE-Bench Verifiedは69.4%から80.2%まで急上昇し、イテレーション速度は業界の主流モデルを上回っています。
さまざまな導入方法が異なるシナリオに対応
M2.5はゼロコード、API呼び出し、ローカル配置の3種類の導入方法を提供し、さまざまなユーザーのニーズに応えます。非技術者はMiniMax Agentのウェブページ端末を通じて開封即用を使用できます。プラットフォームには10,000以上のユーザーが作成した再利用可能な「エキスパート」が存在します。開発者には魔搭の無料APIまたは公式APIを利用できます。公式にはLightning版と標準版の2つのAPIバージョンが登場し、コストは類似モデルの1/10〜1/20です。ローカル配置はSGLang、vLLM、Transformers、MLXの4つの方法をサポートし、それぞれ高並列生産、中小規模生産、迅速な検証、Macローカル開発などのシナリオに適しています。また、各方法のハードウェア要件と操作手順も提示されています。
