近日,Google 宣佈推出一款名爲 DolphinGemma 的大型語言模型,旨在幫助科學家們更深入地理解海豚的交流方式。這項新技術由 Gemini2.5Pro Experimental 驅動,並與佐治亞理工學院及其野生海豚項目(WDP)緊密合作。WDP 的目標是通過長時間的非侵入式觀察,記錄和分析大西洋斑點海豚(Stenella frontalis)的自然行爲和社會結構,特別是它們的交流模式。

多年來,WDP 積累了大量的數據,能夠將特定的海豚聲音與它們的行爲進行關聯。例如,母海豚和小海豚團聚時會發出的獨特口哨聲、在爭鬥時發出的尖叫聲,以及追逐鯊魚時常用的 “嗡嗡” 聲等。Google 表示,分析海豚複雜的交流方式是一項挑戰,而 WDP 的數據爲人工智能的應用提供了絕佳機會。

海豚 (2)

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

DolphinGemma 正是基於這一數據開發的。該模型採用 Google 的 SoundStream 分詞器,將海豚的聲音拆解成可管理的音頻單元。整個系統的架構設計旨在理解複雜的聲音序列,包含約4億個參數,能夠在 WDP 研究人員的 Pixel 手機上原生運行。

與傳統的機器學習模型不同,DolphinGemma 專注於音頻輸入和輸出,接收海豚的自然聲音,並通過一種類似大型語言模型理解人類語音的方法,預測下一個最可能的聲音。這一過程可以類比爲爲海豚 “自動完成” 交流的功能。DolphinGemma 能夠識別海豚聲音的模式和結構,爲科學家們提供更多的研究可能。

此外,在 DolphinGemma 推出之前,鯨魚聽覺增強遙測技術(CHAT)團隊也在探索海豚雙向交流的可能性。CHAT 的目標並非完全破解海豚語言,而是創建一個簡單易用的互動詞彙。通過將合成的聲音與海豚偏好的特定物體(如馬尾藻、海草等)關聯,研究團隊希望海豚能學會模仿這些聲音,主動 “索要” 這些物品。

Google 表示,DolphinGemma 將於今年夏天作爲開放模型發佈,旨在爲全球研究人員提供工具,幫助他們挖掘自己的聲學數據集,從而更好地理解這些智慧的海洋哺乳動物。