最近、研究者たちはグーグルの最新の動画生成AIモデルであるVeo-3をテストし、その結果、このモデルが非常に現実的な手術動画を生成できるものの、医学的処置の理解には著しい欠点があることが明らかになりました。研究では、研究チームは手術の画像を提供し、Veo-3にその後8秒間の手術進行を予測するように求めました。そのため、SurgVeoという評価基準を構築し、50本のリアルな腹腔および脳外科手術の動画をカバーしました。

image.png

研究チームは、4人の経験豊富な外科医にAIが生成した動画を独立して評価してもらい、視覚的な現実性、器具使用の妥当性、組織反応、および手術論理性の4つの観点で評価されました。外科医はVeo-3が生成した動画の質に対して高い評価を与え、「信じられないほど明確だ」と述べましたが、詳細な分析により、AIが医学的論理においては大幅に劣っていることが判明しました。腹腔手術のテストでは、Veo-3の視覚的妥当性のスコアは3.72点でしたが、器具操作は1.78点、組織反応は1.64点、手術論理性のスコアはわずか1.61点でした。

特に神経外科のシナリオでは、Veo-3の性能はさらに悪化しており、8秒後の手術論理性のスコアは1.13点にとどまりました。研究チームは、93%以上のエラーが医学的論理の問題から来ていることを発見しました。例えば、存在しない手術器具を虚構したり、生理学的に不可能な組織反応を示したりすることがありました。モデルにより多くの文脈情報を提供する試み、例えば手術の種類や具体的な手術段階なども、その性能を大きく改善しませんでした。

image.png

この研究は、現在の動画生成AIが本当に医学的処置を理解するにはまだ大きな距離があることを示しています。将来的にはこれらのシステムが医師のトレーニングや術前計画に使用される可能性がありますが、現時点では安全で信頼できる応用レベルには達していません。研究チームは、SurgVeoのデータセットをオープンソース化することを計画しており、AIが医学的理解を向上させるための学術界の推進を目指しています。同時に、このような生成された動画を医学トレーニングで使用することは重大なリスクを伴うことを私たちに思い出させてくれます。誤った学習や誤った手術技術につながる可能性があります。

ポイント:

🌟 Veo-3モデルは現実的な手術動画を生成できますが、医学的論理の理解がありません。

🔍 93%以上のエラーは医学的論理の問題に起因しており、動画の正確性に深刻な影響を与えています。

📈 研究チームはデータセットをオープンソース化し、AIの医学的理解能力の向上を促進することを計画しています。