大規模モデルが本当に幻覚から抜け出す方法は？メタ認知が鍵となる可能性

大規模モデルが生じる「幻覚」——つまり、真面目に事実的な誤りを出力すること—は、AI業界にとって長年の核心的課題であり、特に医療や法務などの高リスク分野では、この問題は特に致命的である。

長期間にわたり、業界で幻覚に対抗する考え方は主に2つある。一つは訓練データをどんどん拡大し、AIを「完璧な知識を持つ」ようにしようとする試みである。もう一つは防御機構を設け、AIが確信がないときに「沈黙する」ようにするものである。しかし、この2つのアプローチには明確な限界がある。前者は世のすべての事実を網羅できないため、常に盲点がある。後者では、間違いを減らすために大量の正しい質問を拒否しなければならず、ユーザー体験が大きく損なわれるという「実用性の税」が発生する。

最近、グーグル研究所とテルアビブ大学の共同研究が発表した論文は、この難局に対して新たなアプローチを提示している。それは「メタ認知（Metacognition）」である。この研究は、幻覚を解決する鍵はAIが間違いを犯さないよう強制することではなく、AIが「知っていることは知っている、知らないことは知らない」という姿勢を学ぶことにあると述べている。

図: 校正と識別力の違い。左図はモデルが良好に校正されている（赤線が対角線に近い）ことを示し、右図は残酷な現実を明らかにする——校正が完全でも、誤り率を25%から5%に抑えるには、52%の正しい回答を拒否しなければならない。

この論文は幻覚を再定義している。問題の本質はAIが出力内容が間違っていることではなく、自信がないにもかかわらず、確信した口調でユーザーを誤導することである。研究者は、AIが「忠実な不確実性」の能力を持つべきだと考えている。つまり、AIの内部計算状態が揺らいでいる、または信頼度が低いときには、出力の表現も保留と慎重さを示すべきであり、絶対的な事実のように偽装してはいけない。

メタ認知とは、AIが自身の認知プロセスを認識することである。これは大規模モデルが内部状態を敏感に感知できるだけでなく、その認識に基づいて誠実に確信度を表現する能力を必要とする。AIエージェント（Agent）時代において、この能力は特に重要である。メタ認知が欠如したAIシステムは、インストルメントパネルもないパイロットに例えられる。これにより、いつツールを使用すべきか判断できず、検索結果の真偽を見極めることもできず、ツールの乱用や「無視飛行（blind flying）」を引き起こす可能性がある。

図: シンプルQA Verifiedでの主要モデルの実測結果。右上隅の星は理想目標であり、「Discrimination Gap」は現在のモデルと理想とのギャップを示し、「Utility Tax」はClaude Opus4が高い正確性を得るために支払った実用性のコストを示している。

もちろん、この道を実現するには大きな課題もある。例えば、「真のメタ認知」と「不確実性の意図的な演じ分け」の区別が難しいこと、およびRLHF（人間フィードバックによる強化学習）による副作用を避けること——なぜなら、人間はしばしば断定的な答えを好むため、ある程度の確信を偽装するAIを育ててしまうからである。

大規模モデルが本当に幻覚から抜け出す方法は？メタ認知が鍵となる可能性

関連推奨

バイチューテック傘下のドゥーパオが有料機能をリリース　大規模モデルが商業化への本格的な段階へ進む

智譜が150億元を資金調達し、科创板に上場を目指す。香港株式市場への上場から5ヶ月未満

指標は驚くべきものだが、コミュニティから非難を受けたのか？MiniMaxの新エントリーモデルM3が二極化する議論を引き起こす

最大で97.5％低下！テンセントクラウドの大規模モデル価格を全面引き下げ、公式メーカー価格と完全に一致

OpenAIがロボット業界に進出、独自のチームを設立してエンバネントインテリジェンスに赌ける

大規模モデルが本当に幻覚から抜け出す方法は？メタ認知が鍵となる可能性

関連推奨

バイチューテック傘下のドゥーパオが有料機能をリリース 大規模モデルが商業化への本格的な段階へ進む

智譜が150億元を資金調達し、科创板に上場を目指す。香港株式市場への上場から5ヶ月未満

指標は驚くべきものだが、コミュニティから非難を受けたのか？MiniMaxの新エントリーモデルM3が二極化する議論を引き起こす

最大で97.5％低下！テンセントクラウドの大規模モデル価格を全面引き下げ、公式メーカー価格と完全に一致

OpenAIがロボット業界に進出、独自のチームを設立してエンバネントインテリジェンスに赌ける

バイチューテック傘下のドゥーパオが有料機能をリリース　大規模モデルが商業化への本格的な段階へ進む