6月5日、2026年AI産業応用大会において、騰訊雲の音声・映像機能はAIネイティブな能力基盤「WAND」を正式に発表しました。20年以上の技術蓄積を基盤として、騰訊雲の音声・映像機能は今回のアップデートで、下位モデル、メディア能力、接続方法をすべて刷新しました。音声・映像メディアのAI能力は、エージェントネイティブなモードを通じて業界に開放され、単一のメディア処理能力の提供から、AIアプリケーションとエージェント向けのネイティブなメディア基盤への戦略的アップグレードを実現しました。

image.png

WANDアーキテクチャはモデルエンジン、能力層、シナリオソリューションの3層から構成されており、コーデック、強化、消去、生成、理解、音声の6つの独自メディア専用モデルを含み、主流のジェネレーティブ大規模モデルがメディア生産プロセスにおいて不足している点を補完しています。。能力層では、60以上のメディアAI能力を生成、理解、処理、符号化に再整理し、API、エージェント予編成ワークフロー(Agentic Workflow)およびスキルの3つのモードで公開しており、エージェントが端から端まで自動的に全フローを走らせることが可能で、ツールの切り替えが不要です。

image.png

WAND能力アーキテクチャ図

現実的なビジネスにおいて、WANDは高い適合性と効率性を示しています。。ECアプリケーションでは、WAND生成モデルは異なる商品カテゴリに応じた処理戦略をカスタマイズでき、エラー率を効果的に低下させ、画像の利用可能性を向上させます。。短編漫画ドラマの創作においては、WANDはシナリオ生成、キャラクターの一貫性維持などの工程を自動化されたフローに統合し、平均的な生産効率を90%向上させています。これは国内で80%以上のトップ級漫画ドラマプラットフォームにサービスを提供しており、そのAI強化およびノーサイドクリーン技術はともにNAB Show2026年の年間製品賞を受賞しています。

また、高同時接続数や極めて低遅延が求められるスポーツライブ配信の場面において、WANDは自社モデルの協調的なスケジューリングにより、認識、生成、合成、符号化を完全な自動化フローに統合し、従来の対策と比較して50%以上もビットレートを節約しています。これにより数千本の世界トップレベルのスポーツイベントをサポートしています。

中国及び海外市場でのシェア11連覇を達成したリーダーである騰訊雲の音声・映像機能としては、この動きによって音声・映像機能がエージェントによって統一的にスケジュールされる生産向けツールになることを加速しており、AIエージェント時代における視聴体験の革新を全面的に支援しています。