4月23日、騰訊の混元 Hy3preview がリリースされ、オープンソース化されました。これは高速・低速思考を統合した混合専門モデルで、総パラメータ数は295B、アクティブパラメータ数は21B、最大で256Kのコンテキスト長をサポートします。これは混元が再構築後に行う最初のモデルであり、これまでで最も知能が高いモデルです。複雑な推論、指示遵守、コンテキスト学習、コード、エージェントなどの能力と推論性能において大幅に向上しています。

2026年2月、騰訊の混元は予訓練と強化学習のインフラストラクチャを再構築し、実用性を追求する3つの原則を確立しました。

1、能力の体系化:「偏科」を推奨しません。たとえば、コードエージェントのような単一の応用でも、推論、長文、指示、対話、コード、ツールなど多様な能力の深い協調が必要です。

2、評価の真実性:公開ランキングから抜け出し、自作問題、最新試験、人工評価、製品のユーザーテストなどにより、モデルの「本物の戦闘力」を評価し改善します。

3、コストパフォーマンスの追求:実用性には商業的合理性が必要です。深く協調的なモデル構造と推論フレームワークの設計により、タスクコストを大幅に削減し、スマートな使い勝手を実現します。

Hy3previewは、混元が実用的な大規模モデルを迅速に探索し、現実世界の問題を解決するための出発点と見なすことができます。

騰訊のチーフAI科学者である姚順雨氏は、「Hy3previewは混元の大規模モデルの再構築の第一歩です。このオープンソース化とリリースを通じて、開発者コミュニティやユーザーからの本物のフィードバックを得たいと考えています。これにより、Hy3正式版の実用性を高めることができます。同時に、予訓練と強化学習の規模を拡大し、モデルの知能上限を向上させ、腾讯の多数の製品との深いコデザインを通じて、モデルの現実的なシナリオにおける総合的なパフォーマンスを継続的に向上させ、特徴的なモデル能力の探求も始めています。

現在、Hy3previewは騰訊クラウド、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQブラウザ、騰訊ドキュメント、騰訊楽享などで初出登場しており、WeChat公式アカウント、和平精英、騰訊ニュース、騰訊自選株、騰訊カスタマーサポート、WeChat読書などの主要製品も順次登場しています。また、Hy3previewは人気のあるオープンソースエージェント製品(OpenClaw、OpenCode、KiloCodeなど)への接続をサポートしており、騰訊クラウドの大規模モデルプラットフォームTokenHubにも掲載されています。

Hy3previewは全面的な実用性を重視し、エージェント能力が大幅に向上しています

複数の評価結果によると、Hy3previewのモデル能力は全体的に向上しています。

1、優れたコンテキスト学習と指示遵守能力

さまざまな現実的な生産および生活のシナリオでは、雑乱で長く冗長なコンテキストを理解し、複雑で変化するルールに従うことがモデルにとって最初の課題です。騰訊のビジネスシナリオのインスピレーションに基づき、騰訊混元はCL-benchおよびCL-bench-Lifeを提案し、モデルのコンテキスト学習能力を革新的に評価し、Hy3previewでモデルのコンテキスト学習および指示遵守能力を顕著に向上させました。

image.png

2、複雑な推論能力が突出し、清华大学数学博士資格試験で国内最高得点

複雑な推論能力は、モデルが様々な問題を解決するための基本です。Hy3 previewはFrontierScience-Olympiad、IMOAnswerBenchなどの高度な理工系推論タスクで優れた成果を収め、最新の清华大学求真書院数学博資考(26春)と全国中学生生物学連盟(CHSBO2025)で優れた成績を収め、汎用性のある強い推論能力を示しました。

image.png

3、コードとエージェントの向上が特に顕著で、高いコストパフォーマンスを示しています

コードとエージェントはHy3previewで最も顕著に向上した分野です。予訓練および強化学習フレームワークの再構築と強化学習タスクの規模の拡大により、騰訊混元はSWE-Bench Verified、Terminal-Bench2.0などの主流コードエージェントベンチマークおよびBrowseComp、WideSearchなどの主流検索エージェントベンチマークで競争力のある結果を達成しました。

image.png

デジタル世界において、コードはモデルが開発環境での実行能力を指し、検索はオープン情報空間での検索、選別、統合能力を指します。両者は、例えばOpenClawのような複雑なエージェントシナリオにおけるモデルの実際の可用性を決定します。Hy3previewはClawEvalとWildClawBenchなどの評価で優れたパフォーマンスを示し、私たちのエージェント能力が段階的に完全かつ実用的になっていることを示しています。

image.png

公開ランクイン以外にも、騰訊混元は複数の内部評価データセットを構築し、モデルが実際の開発シナリオでどのように機能しているかを評価しました。その結果、エンジニアリングタスクセットHy-Backend、リアルユーザーの開発インタラクションに近いHy-Vibe Bench、そして高難度のソフトウェアエンジニアリング開発タスクセットHy-SWE Maxにおいて、Hy3previewが強い競争力を示しました。

48920987-bdbb-464b-adca-513891f742e1.png

各オープンソースモデルのサイズとエージェントの総合的なパフォーマンスを比較すると、Hy3previewは高いコストパフォーマンスを示しています。

image.png

騰訊の核心業務はすべて接続されており、多くの主なAI製品で収益が顕著に増加しています

正式リリース前に、Hy3previewは騰訊の主要なAIビジネスで製品テストを行いました。明確な正の収益を得ました。

元宝端では、混元と元宝は深いCo-Designを実施しました。一方では、モデルの意図理解の正確さ、テキスト作成品質、深い検索などのハード指標を向上させました。他方では、文体、文筆、感情知能、内容の組織と専門性を細かく調整しました。モデルと製品の深い協調により、ユーザーによりスマートで「生きている人みたい」なインタラクティブ体験を提供できました。

ima知識ベースQ&Aおよび一般Q&Aの2つのシナリオでは、テスト結果によると、Hy3previewは長文処理の能力が優れ、特に検索タスクでは回答の正確性、カバー範囲、包括性が良好でした。

CodeBuddy、WorkBuddy製品では、Hy3previewの初期トークン遅延は54%低下し、エンドツーエンドの時間は47%低下し、成功率は99.99%以上に上昇しました。実際のユーザー環境では、Hy3previewは最大で495ステップの複雑なエージェントワークフローを安定して駆動し、ドキュメント処理、データ分析、知識検索、MCPツールチェーンの編成などの多様なオフィスシナリオをカバーしています。

WeChat公式アカウントのAI分身とAIカスタマーサポートのシナリオ専門評価では、Hy3previewはHy2よりも広範な能力の向上を示しました。新モデルはユーザーの意図理解、複雑なコンテキストの引き継ぎ、知識情報の整理においてより成熟した表現を見せ、曖昧な質問、短文の追加質問、マルチラウンド対話に対して、ユーザーの要望をより正確に把握し、より明確で安定した回答を出力できます。知識ベース、ユーザー記憶、コンテキストを組み合わせて回答を作成する際には、AI分身とAIカスタマーサポートの役割にさらに適応し、過剰な推測、主観的な代入、感情的な表現が顕著に減少し、全体的なインタラクティブ体験が「信頼できる、自然で、効率的な」目標に近づいています。

和平精英のAI NPCシナリオ評価では、和平精英チームはHy3previewのリリース後すぐにAI NPCシナリオに接続し、評価を開始しました。全体的なパフォーマンスは印象的でした。ゲーム外の人設扮演シナリオでは、Hy3 Previewはキャラクター設定を正確に理解し、オープンな質問に高関連性で付加価値のあるコンテンツを出力でき、より現実的で自然で没入感のある会話を提供しました。ゲーム内での複雑な対戦シナリオでは、モデルの返答のペースは現実的なプレイヤーの会話体験に近づき、優れた安定性と優れた人間のようなプレイ能力を示し、全体的なパフォーマンスは目立ちました。

騰訊ドキュメントのAI PPTシナリオでは、前バージョン(Hy2)に比べて顕著な進歩を遂げました。生成成功率は20%向上し、評価得点は10%向上し、生成所要時間は20%短縮しました。全体的に見れば、新モデルは評価シナリオで優れたパフォーマンスを示し、テンプレート選択、カラーマッチング、生成アウトライン、補足内容などの各段階で優れた表現を示し、幻覚なし、テーマに合致し、視覚効果が良いです。

QQ AIアシスタント小Q製品の評価では、前バージョンに比べて、長文の最初のバイト遅延、全体的な応答速度、ストリーム出力効率において顕著な最適化が行われました。コア能力では、数学的推論のパフォーマンスの向上が特に顕著で、多様なシナリオでの指示遵守と一般化能力がさらに強化されました。オプンクラウのPinchBench QQエージェントシナリオでのテストで突出した結果を収め、全体的な体験が明らかに向上しました。

推論効率が40%向上し、同等のコストで最良の知能密度

モデルと推論フレームワークの深い協調性、および推論フレームワーク、演算子パフォーマンス、量化アルゴリズムなどの全般的な最適化により、全体的な推論効率は40%向上し、Hy3previewのコストは前世代モデルに比べて大幅に低下しました。

騰訊クラウドの大規模モデルプラットフォームTokenHubでは、Hy3previewの入力価格は最低1.2元/百万トークン、入力キャッシュヒット価格は0.4元/百万トークン、出力価格は最低4元/百万トークンです。同時に、騰訊クラウドは混元と共同でカスタマイズされたHy3preview Token Planサブスクリプションプランを推出し、個人版の価格は最低28元/月で、エージェント開発や「ロブスター」アプリケーションの構築にコストパフォーマンスの高い選択肢を提供します。

image.png

image.png