在教育領域,傳統的標準化測試可以評估學生是否掌握微積分或能夠理解文本,但卻難以測量學生在團隊中解決分歧、在壓力下產生創新想法或批判性分析論點的能力。這些被稱爲 “持久技能” 的能力 —— 協作、創造力和批判性思維 —— 長期以來都缺乏有效、可擴展的測量工具。谷歌研究團隊近日提出了一種新方法,名爲 Vantage,這是一種利用大語言模型(LLM)模擬真實羣體互動並準確評分的技術。

image.png

研究團隊發現,評估持久技能的挑戰在於生態有效性與心理測量學嚴謹性的矛盾。評估需要在真實世界情境中進行,同時又要具備可比性與可重複性。以往的一些嘗試,例如 PISA2015的協作問題解決評估,採用多項選擇題與腳本化的模擬隊友互動,雖然控制了變量,卻失去了真實感。谷歌團隊認爲,LLM 能夠在這兩方面取得平衡。

Vantage 的核心是 “執行 LLM” 架構,它利用單一的 LLM 生成所有 AI 參與者的迴應。這種方法的優勢在於,它可以協調對話並根據預設的教育標準主動引導對話。例如,針對衝突解決技能,執行 LLM 可以讓 AI 角色主動製造分歧,以此測試人類參與者的反應。研究顯示,與不協調的獨立代理相比,執行 LLM 的對話在兩個協作子技能上表現更好,數據表明,執行 LLM 的表現顯著提升了關鍵行爲的證據率。

研究團隊招募了188名18至25歲的參與者,通過與 AI 角色進行30分鐘的協作任務,收集了373份對話記錄。對話的評分由紐約大學的兩位人類評審員和 AI 評估工具共同完成,結果顯示 AI 評分與人類專家的評分一致性良好。尤其在創造力和批判性思維方面,執行 LLM 的表現同樣優於獨立代理,爲未來的教育評估提供了新思路。

劃重點:  

📊 Vantage 方法結合了大語言模型,能夠模擬真實的團隊互動並準確評分持久技能。  

🤖 執行 LLM 架構通過協調多個 AI 角色,能夠主動引導對話,提升關鍵行爲的評估效果。  

🎓 研究表明,AI 評分與人類專家評分一致性良好,爲教育測評帶來了新的可能性。