教育分野において、従来の標準化テストは生徒が微積分を理解しているか、文章を読み解けるかを評価することができるが、チームで意見の不一致を解決したり、プレッシャーの中で創造的なアイデアを生み出したり、論点を批判的に分析する能力を測定することは難しい。これらは「持続可能なスキル」と呼ばれる協調性、創造性、批判的思考力といった能力であり、長期間にわたり効果的かつスケーラブルな測定ツールが不足していた。最近、グーグルの研究チームは、大規模言語モデル(LLM)を利用して現実的なグループ間の対話をシミュレートし、正確にスコアリングする手法としてVantageと呼ばれる新しい方法を提案した。

研究チームは、持続可能なスキルを評価する課題が生態学的妥当性と心理測定学的厳格さの矛盾に直面していることを発見した。評価は現実世界の状況で行われなければならない一方で、比較可能で再現可能な基準も必要である。過去の試みとしては、PISA2015における協働問題解決の評価が挙げられるが、これは選択肢式の質問とシナリオ化されたAIの仲間との対話を利用しており、変数を制御することはできたが、現実感を失った。グーグルチームは、LLMがこの両者をバランスよく達成できると信じている。
Vantageの中心となるのは、「実行型LLM」アーキテクチャであり、これは単一のLLMを使ってすべてのAI参加者の反応を生成する。この方法の利点は、会話を調整し、事前に設定された教育基準に基づいて会話を積極的に導くことができることである。例えば、対立解決スキルのテストでは、実行型LLMはAIキャラクターを意図的に対立させるように設計され、それにより人間参加者の反応をテストする。研究結果によると、非協調的な独立エージェントと比較して、実行型LLMの会話は2つの協働サブスキルにおいて優れていることが示され、データからは実行型LLMが重要な行動の証拠率を著しく向上させていることが示されている。
研究チームは18〜25歳の188人の参加者を募集し、30分間のAIキャラクターとの協働タスクを通じて373件の会話記録を収集した。会話のスコアリングはニューヨーク大学の2人の人間評価者とAI評価ツールによって共同で行われ、結果はAIによるスコアリングと専門家によるスコアリングの一致性が良好であることを示した。特に創造性や批判的思考において、実行型LLMの性能は独立エージェントよりも優れており、今後の教育評価にとって新たな道を開いた。
ポイント:
📊 Vantageメソッドは、大規模言語モデルを活用し、リアルなチーム内の対話をシミュレートし、持続可能なスキルを正確に評価することができる。
🤖 実行型LLMアーキテクチャは、複数のAIキャラクターを調整し、会話を積極的に導き、重要な行動の評価効果を高めることができる。
🎓 研究結果によると、AIによるスコアリングと専門家のスコアリングの一致度が良好であり、教育評価には新たな可能性が開かれた。
