最近、テンセントはAIで生成された画像の現実感と芸術的評価を向上させるための新しい方法をリリースしました。この微調整技術は、32枚のH20GPUで10分間トレーニングを行うだけで顕著な収束効果が得られ、人間による評価点数は300%以上も向上しているとのことです。
現在の拡散モデルは報酬メカニズムを利用して画像品質を最適化できますが、いくつかの課題があります。まず、モデルの最適化ステップが少ないため、「報酬の不正利用」と呼ばれる現象が起こりやすく、これはモデルが高スコアを得るために低品質な画像を生成するという問題です。また、報酬モデルのオフライン調整プロセスが柔軟性に欠けており、リアルタイムでの最適化能力が制限されています。

これらの問題を解決するために、テンセントチームは2つの革新的な方法を提案しました。1つ目は「Direct-Align」という技術です。この技術では、事前にノイズを注入することで、モデルはどの時点からでも元の画像を復元できるようになります。これにより、初期の逆伝播における勾配爆発現象が減少し、モデルは拡散プロセス全体を通して最適化可能となり、最後の数ステップに限定されなくなります。
2つ目の革新は「セマンティック・リレーショナル・プリファレンス・オプティマイゼーション(SRPO)」です。この方法では、報酬信号をテキストで制御可能な信号に変換します。ポジティブおよびネガティブなヒントワードを追加することで、モデルはスタイルを柔軟に調整でき、追加データを必要としません。つまり、ユーザーはヒントワードの前に単純な制御語を追加するだけで、明るさの調整やスタイルの変換などの機能を実現できます。
実験結果によると、SRPOでトレーニングされたFLUX.1-devモデルは、現実感と芸術的品質の両面で大幅に向上しています。3200のヒントワードを含むテストでは、SRPOでトレーニングされたモデルは現実感の優秀率が8.2%から38.9%に、芸術的品質の優秀率が9.8%から40.5%に上昇しました。他の方法と比較して、SRPOは高い芸術的品質を維持しながら、より自然な画像テクスチャを生成することが可能です。
この技術の成功は、テンセントがAI絵画分野においてさらに深く探求していることを示しており、今後のAI画像生成技術の方向性を示しています。
論文のURL:https://arxiv.org/pdf/2509.06942
