9月30日、Qwen3-LiveTranslate-Flashという大規模言語モデルを基盤とした多言語リアルタイム音声・映像翻訳システムが発表され、言語間の交流に画期的な進展をもたらしました。
このシステムは18の言語に対応し、オフラインおよびリアルタイムでの翻訳が可能です。中国語、英語、フランス語、ドイツ語、ロシア語、スペイン語などの主要言語だけでなく、普通話、広東語、北京語、呉語などの多様な方言にも対応しており、国際的な交流に対して包括的な言語サポートを提供します。

Qwen3-LiveTranslate-Flashのコアイノベーションは視覚的文脈強化技術です。このシステムは「言葉を理解する」だけでなく、口元や動作、文字、実体などのマルチモーダル情報を認識することで「文脈を理解」し、騒音が多い環境や複雑な文脈においても翻訳の正確性を効果的に向上させ、一語多訳などの翻訳課題を解決します。
遅延制御に関しては、このシステムは軽量な混合エキスパートアーキテクチャと動的サンプリング戦略を採用し、最低でも3秒の同時通訳遅延を実現し、リアルタイム翻訳の滑らかさを大幅に向上させています。また、意味ユニット予測技術により、言語間の並び替え問題を軽減し、オフライン翻訳に近い高品質な出力を保証しています。

テストデータによると、Qwen3-LiveTranslate-Flashは中英及び多言語翻訳の正確性においてGemini-2.5-Flash、GPT-4o-Audio-Preview、Voxtral Small-24Bなどの主要モデルを大きく上回り、多分野および複雑な音響環境下での性能が優れています。

音声合成に関しては、このシステムは膨大な音声データでトレーニングされており、オリジナルの音声内容に基づいてトーンや表現力を自動調整し、自然で滑らかな音色を生成できます。通義千問は、今後も翻訳の正確性と自然さを継続的に向上させ、言語カバー範囲を拡大し、複雑な音声環境における耐障害性を強化していきます。
