在遊戲開發的世界裏,大模型正逐漸成爲了無可替代的 “智囊團”,從生成 AI 角色到場景構建,幾乎無所不包。

然而,儘管它們的能力驚人,對於遊戲場景的理解、圖像識別和內容描述卻還有待提升。爲了解決這些難題,加拿大阿爾伯塔的研究團隊不甘落後,推出了一款專爲遊戲打造的開源大模型 ——VideoGameBunny(簡稱 “VGB”)。

image.png

功能亮點

- 支持多種語言:能夠處理和生成多種語言的,適合國際化應用。

- 高度可定製:可以根據特定需求調整模型參數和配置文件。

- 強大的文本生成能力:能夠生成連貫和自然的對話,使其在遊戲和聊天機器人中表現優異。

- 開源且易於訪問:在 Hugging Face 平臺上提供,使任何人都可以輕鬆使用和貢獻。

- 兼容多種開發環境:Python 等流行編程語言,方便集成到不同的項目中。

- 含豐富的模型文件:提供多種格式的模型文件,支持用戶進行不同的訓練和應用。

- 活躍的社區支持:用戶在社區中尋求幫助和交流,促進技術分享和合作。

項目地址:https://huggingface.co/VideoGameBunny/VideoGameBunny-V1/tree/main

VGB 的潛力巨大,它像一位聰明的視覺 AI 助理,能夠理解遊戲環境並即時反饋。在那些開放世界的3A 遊戲中,它可以幫助玩家快速識別關鍵物品或回答各種問題,讓你更快掌握遊戲的技巧,極大增強遊戲的互動性和沉浸感。

更厲害的是,VGB 還能分析大量遊戲圖像,檢測出圖形渲染錯誤和物理引擎的不一致,成爲開發者們排查 bug 和異常的得力助手。

適用場景

- 遊戲對話系統:可以用於開發更自然和智能的 NPC 對話,提升玩家的沉浸感。

- 育應用:爲教育軟件生成互動內容或練習題,提高學習效率。

- 客服聊天機器人:應用於在線客服系統,提供實時的客戶支持和解答。

VGB 的基礎是 Bunny 模型,這可是個高效低耗的 “好夥伴”。它的設計靈感類似於 LLaVA,通過多層感知器網絡將來自強預訓練視覺模型的視覺信息轉換成圖像標記,確保語言模型能夠高效處理數據。Bunny 模型支持最高1152×1152像素的圖像分辨率,這在處理遊戲圖像時尤爲重要,因爲遊戲畫面中包含了從小小的 UI 圖標到龐大的遊戲物體等各種視覺元素。多尺度特徵提取能力,讓 VGB 對遊戲內容的理解更上一層樓。

爲了讓 VGB 更好地理解遊戲的視覺內容,研究團隊採用了 Meta 開源的 LLama-3-8B 作爲語言模型,並結合了 SigLIP 視覺編碼器和 S2包裝器。這一組合使得模型能夠捕捉到遊戲中不同尺度的視覺元素,從微小的界面圖標到大型遊戲對象,提供了豐富的上下文信息。

此外,爲了生成與遊戲圖像匹配的指令數據,研究人員運用了多種先進模型,包括 Gemini-1.0-Pro-Vision、GPT-4V 和 GPT-4o 等。這些模型生成了多種類型的指令,如簡短和詳細的標題、圖像到 JSON 的描述及基於圖像的問答,幫助 VGB 更好地理解玩家的查詢和指令。