在人工智能領域不斷創新的谷歌,近日宣佈了一項激動人心的計劃。谷歌 DeepMind 的首席執行官 Demis Hassabis 在播客節目 Possible 中透露,公司將把其 Gemini AI 模型與 Veo 視頻生成模型進行整合。這一舉措旨在提升 Gemini 對物理世界的理解能力,助力開發出一個真正能夠在現實生活中爲用戶提供幫助的通用數字助手。
Hassabis 指出,從一開始,Gemini 模型就被設計爲一個多模態系統,能夠處理多種類型的數據和信息。他表示:“我們的願景是構建一個能夠整合各種媒體形式的助手,這樣它才能更好地理解和與世界互動。” 目前,Gemini 模型已經能夠生成圖像、文本和音頻,展示出強大的多模態能力。

值得注意的是,整個 AI 行業正在向 “全能” 模型發展,許多公司都在探索類似的方向。例如,OpenAI 的 ChatGPT 不僅可以處理文本對話,還能生成藝術風格的圖像。此外,亞馬遜也計劃推出一款全新的 “任意到任意” 的模型,旨在實現更高水平的多模態功能。
Hassabis 透露,Veo 模型的訓練數據主要來自谷歌旗下的 YouTube 平臺。通過分析大量 YouTube 視頻,Veo 能夠有效學習世界的物理規律。他指出:“Veo2通過觀看大量的視頻,能夠更好地理解現實世界的運作方式。” 這表明,Veo 在訓練過程中所使用的數據不僅豐富,而且具有實際應用價值。
谷歌在去年已擴大了其服務條款,以便獲取更多的 YouTube 內容用於 AI 模型訓練,確保模型的多樣性和準確性。這樣的數據獲取策略無疑將爲 Gemini 和 Veo 的結合提供堅實的基礎,使得即將推出的智能助手能夠更全面、更深刻地理解和響應用戶的需求。
隨着技術的不斷進步,谷歌的這一計劃預示着 AI 助手將不再侷限於單一任務,而是能夠在多個領域提供實用的支持,爲用戶的生活帶來更多的便利。
