世界中でAI技術が進歩する中、グーグルは1月15日に新しくなったTranslateGemma翻訳モデルシリーズを発表しました。このシリーズは最新のGemma3アーキテクチャに基づいており、3つのパラメータサイズ(4B、12B、27B)があり、55の主要言語の翻訳をサポートし、画像の多モーダル翻訳機能も備えています。これにより、ユーザーはテキストだけでなく、画像内のテキストも翻訳できるようになります。つまり、本物のスムーズな言語コミュニケーションを実現します。
グーグルによると、TranslateGemmaの登場は単なる技術的なアップデートではなく、性能の飛躍です。厳格なWMT24++ベンチマークテストにおいて、12Bバージョンの翻訳品質が27Bベースラインモデルを上回りました。後者のパラメータ数はその倍です。つまり、開発者は半分の計算力でより高精度な翻訳結果を得ることができ、翻訳の効率と応答速度を大幅に向上させます。

また注目すべき点は、最も小さな4Bモデルも非常に強力な性能を示しており、12Bモデルと同等の性能を持っています。特にモバイルデバイスやエッジコンピューティング環境に最適です。この進歩により、日常生活中の多くのユーザーが高品質な翻訳を簡単に体験できるようになり、旅行、学習、仕事などにおいて特に役立ちます。
技術面では、TranslateGemmaの高性能は独自の「2段階微調整」プロセスによるものです。まず、グーグルは高品質な合成データと人間による翻訳データを使用して監督的微調整を行います。その後、強化学習の段階で、先進的な報酬モデルを利用して、より自然で文脈に合った翻訳を作成するようにモデルを導きます。この革新は翻訳分野に新たなアイデアをもたらしました。

さまざまなアプリケーションシーンに対応するため、グーグルはTranslateGemmaを異なるサイズのモデルに細分化しています。4Bモデルはスマートフォンやエッジデバイス向けに最適化されており、12BモデルはカジュアルなノートブックPCに適しています。一方、27Bモデルは最高の翻訳品質を求めているユーザーにとって理想的であり、ハイエンドGPUやクラウドTPU上で動作します。
現在、すべてのモデルはKaggle、Hugging Face、Vertex AIプラットフォームで公開されており、広範な開発者と研究者にダウンロード利用可能です。TranslateGemmaのリリースにより、グーグルは再びAI分野でのリーダーシップを示し、言語翻訳の未来に新たな可能性を開きました。
