谷歌 AI 研究推出 Vantage：基於大語言模型的協作與創造力測評新方法

在教育領域，傳統的標準化測試可以評估學生是否掌握微積分或能夠理解文本，但卻難以測量學生在團隊中解決分歧、在壓力下產生創新想法或批判性分析論點的能力。這些被稱爲 “持久技能” 的能力 —— 協作、創造力和批判性思維 —— 長期以來都缺乏有效、可擴展的測量工具。谷歌研究團隊近日提出了一種新方法，名爲 Vantage，這是一種利用大語言模型（LLM）模擬真實羣體互動並準確評分的技術。

研究團隊發現，評估持久技能的挑戰在於生態有效性與心理測量學嚴謹性的矛盾。評估需要在真實世界情境中進行，同時又要具備可比性與可重複性。以往的一些嘗試，例如 PISA2015的協作問題解決評估，採用多項選擇題與腳本化的模擬隊友互動，雖然控制了變量，卻失去了真實感。谷歌團隊認爲，LLM 能夠在這兩方面取得平衡。

Vantage 的核心是 “執行 LLM” 架構，它利用單一的 LLM 生成所有 AI 參與者的迴應。這種方法的優勢在於，它可以協調對話並根據預設的教育標準主動引導對話。例如，針對衝突解決技能，執行 LLM 可以讓 AI 角色主動製造分歧，以此測試人類參與者的反應。研究顯示，與不協調的獨立代理相比，執行 LLM 的對話在兩個協作子技能上表現更好，數據表明，執行 LLM 的表現顯著提升了關鍵行爲的證據率。

研究團隊招募了188名18至25歲的參與者，通過與 AI 角色進行30分鐘的協作任務，收集了373份對話記錄。對話的評分由紐約大學的兩位人類評審員和 AI 評估工具共同完成，結果顯示 AI 評分與人類專家的評分一致性良好。尤其在創造力和批判性思維方面，執行 LLM 的表現同樣優於獨立代理，爲未來的教育評估提供了新思路。

劃重點:
📊 Vantage 方法結合了大語言模型，能夠模擬真實的團隊互動並準確評分持久技能。
🤖 執行 LLM 架構通過協調多個 AI 角色，能夠主動引導對話，提升關鍵行爲的評估效果。
🎓 研究表明，AI 評分與人類專家評分一致性良好，爲教育測評帶來了新的可能性。

谷歌 AI 研究推出 Vantage：基於大語言模型的協作與創造力測評新方法

相關推薦

OpenAI發佈生物學專屬大模型GPT-Rosalind，劍指科研加速

目標“真·AI個人助理”:蘋果開辦內部訓練營，詳解 Siri 進化底座

AI醫療進入“深水區”:研究指生成式模型尚難獨立承擔臨牀推理重任

蘋果發佈 AI 原型工具 SQUIRE，旨在重塑 UI 設計流程

千問 3.6 正式發佈：100 萬長上下文，硬剛 Claude Code

谷歌 AI 研究推出 Vantage：基於大語言模型的協作與創造力測評新方法

相關推薦

​OpenAI發佈生物學專屬大模型GPT-Rosalind，劍指科研加速

目標“真·AI個人助理”:蘋果開辦內部訓練營，詳解 Siri 進化底座

AI醫療進入“深水區”:研究指生成式模型尚難獨立承擔臨牀推理重任

蘋果發佈 AI 原型工具 SQUIRE，旨在重塑 UI 設計流程

千問 3.6 正式發佈：100 萬長上下文，硬剛 Claude Code

OpenAI發佈生物學專屬大模型GPT-Rosalind，劍指科研加速