ほぼ百年も前に創作された名高い散文『荷塘月色』が最近、あるAI検出ツールによって「AI生成率が60%を超えている」と判定され、その不条理な結果はすぐにネット上で話題となった。この現象について、関連分野の技術専門家は明確に述べた。「AI率」という概念に対して一般の人々が根本的な誤解を抱いていることを示している。

専門家は説明した。「60%」と表示されているのは、全体として文章の60%がAIによって一括して生成された可能性があるということであり、文章中の60%の言葉がAIによって書かれたという意味ではない。このような文学的名作が高リスクのタグを付けられてしまう主な理由は、それらがすでにAI大規模モデルのトレーニングの下地となるデータになってしまったからである。

名作がアルゴリズムの犠牲になる

Ai検出の原理は、テキストの用語がモデルによる予測とどれだけ一致するかを比較することにある。そして、大規模モデルは『荷塘月色』のような古典的な文章に非常に詳しくなっているため、一致率が高くなりすぎてしまい、誤検出を引き起こしてしまう。朱自清の作品だけでなく、劉慈欣の『流浪地球』の一部や『滕王閣序』なども、それぞれ50%以上のAI率と判定されることがある。また『滕王閣序』は一度には100%のAI率とマークされたこともある。

異なる検出プラットフォーム間でのアルゴリズムの違いにより、最終的な結果には大きな変動がある。同じ文章でも検出値の差が30%にもなることがある。また、検出の正確さは文章の長さに強く関係しており、通常500字前後の文章であれば、ある程度の参考値として機能する。

独自の文章風で確率的な誤検出に抗う

AI検出ツールが普及するにつれて、今では「AI生成した文章を提供し、それを使ってAI率を下げてあげる」という灰色産業も生まれている。このような頻繁な語彙を置き換えることで検出を回避する手段は、本質的には技術同士の継続的な攻防戦である。

専門家は強調した。「AI検出ツールが出す結果はあくまで確率であり、文章の独自性を評価する唯一の基準としては使えない。」よく自らの著作性を証明しなければならない作家や学生にとって、非常に識別性の高い個人的な文章スタイルを維持することが、アルゴリズムの誤検出に打ち勝つ最良の方法である。