本日開催されたアリババクラウドの通義スマートハードウェア展示会において、アリババクラウドはマルチモーダルインタラクション開発キットを正式に発表しました。このキットは、スマートハードウェアメーカーに「開封即用(開封してすぐに使える)」のAI能力基盤を提供することを目的としています。このキットは、通義千問(Qwen)の3つの主要な大規模モデルを深く統合し、生活・レジャー、作業効率など様々なシナリオ向けに10種類以上のAIエージェントとMCP(Model-as-a-Service)を事前搭載しており、AIメガネ、学習機器、癒しのおもちゃ、スマートロボットなどの端末デバイスに迅速にAI機能を付与し、ハードウェアのスマート化の障壁を大幅に下げます。

 3つのモデルの統合により、「聞く」「見る」「表現する」ことができるスマート端末の構築

この開発キットの主な利点は、マルチモーダル機能のネイティブな統合です:

- 通義千問(Qwen): テキストの理解と生成、タスク計画、対話論理を提供;

- 通義万相(Wanxiang): 文字から画像への生成、画像から画像への生成、視覚的理解およびスタイルの移行をサポートし、視覚的なインタラクションを支援;

- 通義百聆(Bailin): 音声認識、音声合成、音声認証に専門性を持ち、自然な音声インタラクションを実現。

これらが協力することで、ハードウェアデバイスは音声コマンド、画像入力、テキストコンテキストを同時に処理でき、例えば「問題の写真を撮って、解き方を説明する」「描きたいシーンを説明して、画像を生成して読み上げる」などの複雑なマルチモーダルタスクを実現できます。

 事前に設定されたエージェント+MCPツールにより、シナリオの実装を加速

開発効率を向上させるため、キットには10種類以上の直接呼び出せるAIエージェントとMCPツールが内蔵されており、頻繁なシナリオをカバーしています:

- 学習サポート: 宿題指導エージェント、知識ポイントの質問応答、英語のスピーキングトレーニング;

- 生活アシスタント: スケジュール管理、健康アラーム、スマートホーム制御;

- クリエイティブエンタメ: AI絵画アシスタント、物語生成器、音楽制作ツール;

- 作業効率: 会議録の生成、文書要約、多言語リアルタイム翻訳。

ハードウェアメーカーはモデルの再訓練を必要とせず、APIやSDKを介して統合するだけで、数週間で製品に「人間のような」インタラクション能力を付与できます。

 全面的に公開し、ハードウェアメーカーがAI端末のトレンドを先取りできるように支援

アリババクラウドは、このキットがプライベート配置とクラウド・エッジ連携をサポートし、データセキュリティと反応速度を両立させ、さまざまな性能レベルのデバイスに適していると強調しました。また、アリババクラウドはハードウェアの参考設計、テスト認証、エコシステムとの接続サービスを提供し、パートナー企業が製品の市場投入を迅速に完了できるようにします。

「今後すべてのスマートデバイスはマルチモーダルインタラクション能力を持つべきだ」と、アリババクラウドのスマートハードウェア担当者は述べています。「我々の目標は、開発者が基本的なモデルの訓練ではなく、製品のイノベーションに集中できるようにすることです。」

 AIbaseの観察: 大規模モデルベンダーは「API出力」から「ハードウェアへの支援」へと戦略を転換

AI端末の爆発的成長の背景において、アリババクラウドのこの動きは、汎用APIの提供から、ハードウェア産業チェーンへの深い組み込みへの戦略の中心の変化を示しています。通義の大規模モデルをモジュラーでシナリオ対応な開発キットとしてパッケージ化することで、アリババクラウドはモデルの使用シーンを広げ、AIメガネ、教育ハードウェア、癒しロボットなどの新興分野で先行者となりました。