大規模モデルが生じる「幻覚」——つまり、真面目に事実的な誤りを出力すること—は、AI業界にとって長年の核心的課題であり、特に医療や法務などの高リスク分野では、この問題は特に致命的である。

長期間にわたり、業界で幻覚に対抗する考え方は主に2つある。一つは訓練データをどんどん拡大し、AIを「完璧な知識を持つ」ようにしようとする試みである。もう一つは防御機構を設け、AIが確信がないときに「沈黙する」ようにするものである。しかし、この2つのアプローチには明確な限界がある。前者は世のすべての事実を網羅できないため、常に盲点がある。後者では、間違いを減らすために大量の正しい質問を拒否しなければならず、ユーザー体験が大きく損なわれるという「実用性の税」が発生する。

最近、グーグル研究所とテルアビブ大学の共同研究が発表した論文は、この難局に対して新たなアプローチを提示している。それは「メタ認知(Metacognition)」である。この研究は、幻覚を解決する鍵はAIが間違いを犯さないよう強制することではなく、AIが「知っていることは知っている、知らないことは知らない」という姿勢を学ぶことにあると述べている。

image.png

図: 校正と識別力の違い。左図はモデルが良好に校正されている(赤線が対角線に近い)ことを示し、右図は残酷な現実を明らかにする——校正が完全でも、誤り率を25%から5%に抑えるには、52%の正しい回答を拒否しなければならない。

この論文は幻覚を再定義している。問題の本質はAIが出力内容が間違っていることではなく、自信がないにもかかわらず、確信した口調でユーザーを誤導することである。研究者は、AIが「忠実な不確実性」の能力を持つべきだと考えている。つまり、AIの内部計算状態が揺らいでいる、または信頼度が低いときには、出力の表現も保留と慎重さを示すべきであり、絶対的な事実のように偽装してはいけない。

メタ認知とは、AIが自身の認知プロセスを認識することである。これは大規模モデルが内部状態を敏感に感知できるだけでなく、その認識に基づいて誠実に確信度を表現する能力を必要とする。AIエージェント(Agent)時代において、この能力は特に重要である。メタ認知が欠如したAIシステムは、インストルメントパネルもないパイロットに例えられる。これにより、いつツールを使用すべきか判断できず、検索結果の真偽を見極めることもできず、ツールの乱用や「無視飛行(blind flying)」を引き起こす可能性がある。

image.png

図: シンプルQA Verifiedでの主要モデルの実測結果。右上隅の星は理想目標であり、「Discrimination Gap」は現在のモデルと理想とのギャップを示し、「Utility Tax」はClaude Opus4が高い正確性を得るために支払った実用性のコストを示している。

もちろん、この道を実現するには大きな課題もある。例えば、「真のメタ認知」と「不確実性の意図的な演じ分け」の区別が難しいこと、およびRLHF(人間フィードバックによる強化学習)による副作用を避けること——なぜなら、人間はしばしば断定的な答えを好むため、ある程度の確信を偽装するAIを育ててしまうからである。