最近、スイス・チューリッヒ大学、オランダ・アムステルダム大学、アメリカ・ドク大学、ニューヨーク大学の研究チームが最新の研究を発表し、大規模言語モデルによって生成されたSNS投稿の内容認識における欠点を明らかにしました。この研究によると、これらのAI生成の投稿は、各大手SNSで人間によって識別されやすく、識別精度は70%から80%に達し、ランダムな推測よりも大幅に高いことが判明しました。

図の出典:AIにより生成された画像
研究者は、Apertus、DeepSeek、Gemma、Llama、Mistral、Qwenなど、9つの異なる大規模言語モデルをテストし、Bluesky、Reddit、Xでのパフォーマンスを分析しました。その結果、これらのAI生成コンテンツは「毒性スコア」において顕著な違いがあり、これはAIと人間の投稿を区別する重要な要因となりました。言い換えれば、ある投稿のコメント欄に特に鋭いまたはユーモラスなコメントがある場合、それはおそらく人間によるものです。
研究では、大規模言語モデルがオンライン会話の形式を模倣することはできるものの、感情表現の捉え方に苦労していることが指摘されました。自発的で感情的な表現は人間のソーシャルインタラクションの特徴であり、AIはここでのパフォーマンスが人間よりも劣っています。また、研究では特定の状況下において、例えばマスクのXプラットフォームでポジティブな感情を示す、またはRedditで政治について議論する場合、AIモデルのパフォーマンスが特に悪かったことがわかりました。
全体的に見ると、テストに参加したAIモデルはXプラットフォームの投稿を模倣する際には比較的良好でしたが、Blueskyではやや劣り、Redditは三者の中で最も挑戦的なものでした。なぜなら、そのプラットフォームの会話規則がより複雑だったからです。また、研究では、人間の指示に基づく微調整を受けていないAIモデルがテストでより良い結果を出していたことも発見されました。これは、過度なトレーニングがモデルのスタイルをあまりにも統一させてしまい、結果としてコンテンツが機械的になってしまう可能性があることを示しています。
この研究を通じて、研究者たちはAIの感情表現における限界を強調し、今後のSNSでのAIの応用において、感情知能の向上が必要であることを指摘しました。
ポイント:
🌟 AI生成のSNSコンテンツの識別率は70%〜80%に達しています。
🤖 大規模言語モデルは感情表現において明らかに不足しており、自発的な感情的な相互作用は人間の特徴です。
📊 人間の指示に基づいた微調整を受けないモデルはテストでより良い結果を示しました。過度な調整トレーニングは、コンテンツを機械的にならせる可能性があります。
