OpenAI 的旗艦模型 GPT-4o("o" 代表 "omni")在五月份發佈時,其音頻理解能力備受矚目。GPT-4o 模型能夠以平均320毫秒的速度迴應音頻輸入,這與人類在典型對話中的反應時間相似。

OpenAI 還宣佈,ChatGPT 的語音模式功能將利用 GPT-4o 模型的音頻能力,爲用戶提供無縫的語音對話體驗。關於 GPT-4o 的語音能力,OpenAI 團隊寫道:
"通過 GPT-4o,我們訓練了一個全新的模型,將文本、視覺和音頻三種模態進行端到端的訓練,也就是說,所有的輸入和都由同一個神經網絡處理。由於 GPT-4o 我們首個結合所有這些模態的模型,我們仍然只是初步探索了模型的潛力和限制。"
在六月份,OpenAI 宣佈,計劃將先進的語模式在晚些時候向一小部分 ChatGPT Plus 用戶進行 Alpha 版推出,但由於需要改進模型檢測和拒絕某些內容的能力,該計劃被推遲了一個月。此外,OpenAI 還在準備其基礎設施,以便在保持實時響應的同時擴展到數百萬用戶。
現在,OpenAI 的 CEO Sam Altman 通過 X 證實,語音模式的 Alpha 版將於下週開始向 ChatGPT Plus 訂閱者推出。

目前的 ChatGPT 語音模式由於平均延遲爲2.8秒(GPT3.5)和5.4秒(GPT-4),使用起來並不直觀。基於 GPT-4o 的即將推出的先進語音模式將允許 ChatGPT 訂閱者進行無延遲的流暢對話。
另外,OpenAI 今天還發布了備受期待的 SearchGPT,這是他們對網絡搜索體驗的新嘗試。目前 SearchGPT 還是一個原型,它提供了人工智能搜索功能,可以從清晰和相關的來源中快速提供準確的答案。你可以在這裏瞭解更多。
劃重點:
- ChatGPT Plus 訂閱者將在下週獲得全新的語音模式功能,實現無延遲的流暢對話體驗。
- GPT-4o 模型結合了文本、視覺和音頻三種模態的訓練,爲 OpenAI 探索了更多潛力和限制。
- OpenAI 還發布了 SearchGPT,提供了快速準確的人工智能搜索功能。
