OpenAIは午前1時に技術ライブストリーミングを開催し、その新しくなった音声モデル「GPT-Realtime」を正式に発表しました。このマルチモーダルモデルは、音声AIエージェント向けに設計されており、より自然で滑らかな音声を生成することを目的としています。人間の豊かで多様なトーン、感情、話すスピードを模倣することができます。GPT-Realtimeは幅広い応用シーンを持ち、カスタマーサービス、教育、金融、医療などの分野で使用され、スマートスピーカーの構築に強力なサポートを提供します。

GPT-Realtimeは、MarinとCedarという2つの独自の音声スタイルを追加し、既存の8つの音声スタイルを全面的にアップグレードしました。従来の音声モデルとは異なり、GPT-Realtimeは音声を生成するだけでなく、知性、推論、理解能力も備えています。例えば、モデルは笑いなどの非言語的なシグナルを正確に捉えることができ、会話の中で言語を柔軟に切り替え、さまざまなシナリオに適応できます。
評価において、GPT-Realtimeはさまざまな言語環境でのアルファベットと数字の文字列検出精度が顕著に向上し、推論能力の評価では82.8%の精度を達成し、現在のスマート音声モデルの中でもトップクラスです。命令の遵守能力の改善もこのモデルの大きな特徴であり、開発者はカスタム命令を設定することで、モデルの反応効果を向上させることができます。MultiChallenge音声ベンチマークテストでは、GPT-Realtimeの命令遵守精度は20.6%から30.5%へと向上しています。
音声生成能力に加え、GPT-Realtimeは画像入力もサポートしています。開発者は会話中に画像を音声やテキストと組み合わせて使用でき、ユーザーが見ている内容に基づいて会話を行うことができ、よりパーソナライズされたインタラクティブな体験を提供します。また、Realtime APIの新機能により、開発者はリモートMCPサーバーに簡単に接続でき、統合プロセスを簡略化し、開発効率を高めます。
セキュリティとプライバシーに関して、Realtime APIには複数の保護措置が備えられており、リアルタイムで会話内容をモニタリングし、悪用行為の防止を行います。同時に、開発者は必要に応じてカスタムセキュリティ対策を追加し、使用環境の安全性を確保できます。
発表以来、すべての開発者は新しいRealtime APIとGPT-Realtimeモデルを使用できるようになりました。音声入力トークンの価格は20%低下しました。さらに、開発者はスマートトークン制限を柔軟に設定することで、長時間の会話コストを削減できます。
注目ポイント:
🌟 GPT-RealtimeはOpenAIが最新に発表したマルチモーダル音声モデルで、カスタマーサービス、教育など様々な分野で使用されます。
📈 このモデルの推論能力和命令の遵守精度は大幅に向上しており、開発者にとってより強力なサポートを提供します。
🔒 Realtime APIにはセキュリティ対策が備わっており、ユーザーのインタラクションの安全性和プライバシーを確保します。
