人工知能は、言語間コミュニケーションの分野でまた一つ重要な進歩を遂げました。6月9日、グーグルは新しいGemini 3.5リアルタイム翻訳モデルを公式にリリースし、より高度な音声処理技術を通じて言語の壁を乗り越えることを目指しています。
グーグルが最新のスピーチ・トゥ・スピーチ(音声対音声)翻訳として打ち出したこのモデルのコアな利点は、優れた認識および復元能力にあります。グーグル公式の紹介によると、Gemini 3.5は世界中の70種類以上の言語を自動的に認識でき、主要言語だけでなく、さまざまなシナリオでの即時コミュニケーションにも広範なサポートを提供しています。
従来の翻訳ツールと比較して、このモデルの最大の特徴は、言語の「個性」を保持できる能力です。リアルタイム翻訳において、翻訳内容の正確さと滑らかさを確保するだけでなく、スピーカーの元のトーン、話す速度、ピッチの特徴を正確に捉え、同時に表示します。これは、言語間コミュニケーションが機械的なテキスト変換ではなく、個人の感情や特徴を持つ本物の会話を可能にするということを意味します。
