最近、バイトダンス研究所と清華大学の研究者らが共同で発表した新たな研究によると、OpenAIのSoraなど、現在のAI動画生成モデルは驚くべき視覚効果を生み出せるものの、基本的な物理法則の理解において重大な欠陥があることが指摘されています。この研究は、AIが現実をシミュレートする能力について、幅広い議論を引き起こしています。

研究チームはAI動画生成モデルをテストし、既知のパターン予測、未知のパターン予測、そして既知の要素の新たな組み合わせという3つの異なるシナリオを設定しました。彼らの目的は、これらのモデルが本当に物理法則を学習しているのか、それとも単に訓練データの表面的な特徴に依存しているのかを確かめることでした。

テストの結果、研究者らはこれらのAIモデルが普遍的に適用できる法則を学習していないことを発見しました。それどころか、動画生成においては主に色、大きさ、速度、形状などの表面的な特徴に依存し、厳格な優先順位(色>大きさ>速度>形状)に従っていることが分かりました。

馴染みのあるシナリオでは、これらのモデルはほぼ完璧なパフォーマンスを示しましたが、未知の状況に遭遇すると無力になります。研究の一つのテストでは、物体運動処理におけるAIモデルの限界が示されました。例えば、モデルの訓練には高速で動く球体の往復運動を使用し、テストでは低速の球体を提供したところ、モデルは数フレーム後には球体が突然方向を変えるという結果を示しました。この現象は関連動画でもはっきりと確認できます。

研究者らは、モデルの規模を拡大したり、訓練データを増やすだけでは問題を解決できないと指摘しています。より大規模なモデルは、馴染みのあるパターンや組み合わせではより良いパフォーマンスを示しますが、それでも基本的な物理法則を理解したり、訓練範囲外のシナリオを処理したりすることはできません。研究共著者である康炳毅氏は、「特定のシナリオでデータのカバー率が十分に高ければ、過学習した世界モデルが形成されるかもしれません。」と述べていますが、真の世界モデルは訓練データを超えて一般化できる必要があるため、これは真の世界モデルの定義には当てはまりません。

共著者であるBingyi Kang氏はX上でこの限界を示し、高速で左右と後方に動く球体を用いてモデルを訓練し、その後低速で動く球体を用いてテストしたところ、モデルはわずか数フレーム後に球体が突然方向を変えることを示したと説明しています(1分55秒の動画で確認できます)。

この研究結果は、OpenAIのSora計画にとって大きな課題となっています。OpenAIは、Soraが継続的な拡張によって真の世界モデルへと発展し、物理的な相互作用や3次元幾何学の基本的な理解を既に持っていると主張していました。しかし研究者らは、単純な規模拡大だけでは動画生成モデルが基本的な物理法則を発見するには不十分だと指摘しています。

MetaのAI責任者であるヤン・ルカン氏もこれに対して懐疑的な見解を示し、ピクセルを生成することで世界を予測しようとするアプローチは「時間の無駄であり、失敗する運命にある」と考えています。それでもなお、多くの人々はOpenAIが2024年2月中旬にSoraを予定通りリリースし、その動画生成の可能性を示すことを期待しています。

要点:

🌟 研究によると、AI動画生成モデルは物理法則の理解において重大な欠陥があり、訓練データの表面的な特徴に依存している。  

⚡ モデルの規模を拡大しても問題は解決せず、未知の状況ではこれらのモデルはうまく機能しない。  

🎥 OpenAIのSora計画は課題に直面しており、規模拡大だけでは真の世界モデルを実現できない。