リアルタイム言語の障壁を解消する：GoogleがGemini 3.5リアルタイム翻訳モデルを公開

人工知能は、言語間コミュニケーションの分野でまた一つ重要な進歩を遂げました。6月9日、グーグルは新しいGemini 3.5リアルタイム翻訳モデルを公式にリリースし、より高度な音声処理技術を通じて言語の壁を乗り越えることを目指しています。

グーグルが最新のスピーチ・トゥ・スピーチ（音声対音声）翻訳として打ち出したこのモデルのコアな利点は、優れた認識および復元能力にあります。グーグル公式の紹介によると、Gemini 3.5は世界中の70種類以上の言語を自動的に認識でき、主要言語だけでなく、さまざまなシナリオでの即時コミュニケーションにも広範なサポートを提供しています。

従来の翻訳ツールと比較して、このモデルの最大の特徴は、言語の「個性」を保持できる能力です。リアルタイム翻訳において、翻訳内容の正確さと滑らかさを確保するだけでなく、スピーカーの元のトーン、話す速度、ピッチの特徴を正確に捉え、同時に表示します。これは、言語間コミュニケーションが機械的なテキスト変換ではなく、個人の感情や特徴を持つ本物の会話を可能にするということを意味します。

DeepSeek V4 リリース日が8月3日に決定：シリコンベースの流れの価格上昇が明らかに APIは新しい問題に答えられる

DeepSeek V4正式版は7月中旬のテスト後延期され、発表日は未定。しかしシリコンフローが8月3日よりV4 Proのキャッシュヒット価格を0.1元/百万トークンから1.0元に大幅値上げ。この突然の値上げはV4正式版のリリース間近を示唆し、8月3日が提供開始日とみられる。....

中国が人工知能分野で全産業チェーンの突破を遂げ、《人工知能法》の立法を加速する

中国産大規模AIモデルの世界ダウンロード数が100億回を突破し、1兆パラメータ級オープンソースモデルが続々登場。AI産業チェーン全体が進展。国家発展改革委は、上半期にAI自主革新が加速、DeepSeekや月の暗面などが1兆パラメータモデルを発表、今後は質の高い発展と高度な安全を両立すると表明。....

韓国最大のAIモデルが登場：LGが750億パラメータを備えたK-EXAONE 2.0 Apacheオープンソースで中国モデルと対抗

LG AI研究院、7月31日にHugging Faceで韓国主権AI第2世代「K-EXAONE 2.0」公開。混合注意MoE構造で総パラメータ7500億、活性パラメータ370億と初代の3倍超。韓国最大規模の基盤モデルで、Apache 2.0完全オープンソースは韓国AI史上珍しい。....

盲目なピクセル予測から脱却：PhiZeroが物理言語の先駆けを切り開く AI世界モデルが人間のように考えるようになる

PhiZeroの物理世界モデルが動画生成を革新し、ピクセル予測の物理的誤差を解き明かす。それは「物理言語」を初めて導入し、AIが明示的な推論を行った上で動画を生成するようにし、より安定で連続性のある物理法則のシミュレーションを実現した。これは身体を持つ知能への鍵となる重要な突破と見なされている。

リアルタイム言語の障壁を解消する：GoogleがGemini 3.5リアルタイム翻訳モデルを公開

関連推奨

DeepSeek V4 リリース日が8月3日に決定：シリコンベースの流れの価格上昇が明らかに APIは新しい問題に答えられる

中国が人工知能分野で全産業チェーンの突破を遂げ、《人工知能法》の立法を加速する

韓国最大のAIモデルが登場：LGが750億パラメータを備えたK-EXAONE 2.0 Apacheオープンソースで中国モデルと対抗

盲目なピクセル予測から脱却：PhiZeroが物理言語の先駆けを切り開く AI世界モデルが人間のように考えるようになる

Google Earthに新機能が登場しました。Nano Banana 2に基づく画像生成機能で、ワンタッチでリアルなAIシーンや歴史的な風景を生成できます