最近、テンセント・ハンドルチームは公式微信公众号で最新の研究成果であるSRPO(セマンティック・リラティブ・プリファレンス・オプティマイズ)を発表しました。この技術はAIが生成する画像の現実感を向上させることを目的としており、特にオープンソースのテキストから画像を生成するモデルFluxにおける人物の肌質の「油っぽさ」の問題を解決することを目指しています。この革新的な技術の登場により、画像生成分野に革命的な変化がもたらされることが予想されます。
デジタルアートがますます普及する中、AIが生成する画像の品質は非常に重要です。Fluxモデルはオープンソースのテキストから画像を生成するコミュニティにおいて人気のある基本モデルですが、人物の肌がしすぎていることや不自然であることで批判を受けています。テンセント・ハンドルチームは香港中文大学(深圳)および清华大学と共同で研究を行い、SRPOという提案を打ち出し、オンラインで報酬の好みを調整したり、生成軌跡を最適化するなどの手法を用いて、生成画像の現実感を高めています。

SRPOの核心は、「セマンティック・プリファレンス(意味的好み)」の概念の導入にあります。特定のコントロールキーワード(例えば「現実感」など)を追加することで、報酬モデルの最適化目標を調整します。実験結果によると、この方法は画像の現実性を向上させる効果が顕著です。しかし、研究者たちは単一の意味的ガイドラインが報酬の破壊問題を引き起こす可能性があることを認識しており、そのため独自の「セマンティック・リラティブ・プリファレンス・オプティマイズ」戦略を導入し、ポジティブおよびネガティブな語彙をガイド信号として使用して、報酬モデルのバイアスを相殺しています。

注目すべきは、従来の生成最適化方法が生成プロセスの後半部分のみに焦点を当てているため、高周波情報で過適合してしまう問題が生じやすいことです。テンセント・ハンドルチームはDirect-Align戦略を採用し、入力画像に制御可能なノイズを注入し、そのノイズを参照ポイントとして画像再構築を行って、再構築誤差を大幅に低下させ、より正確な報酬信号の伝達を実現しました。この革新的な方法により、生成軌跡の前半部分の最適化が可能となり、過適合問題を効果的に解決しました。

SRPO技術は非常に高い訓練効率を持ち、わずか10分で既存のDanceGRPO方法を上回ります。研究結果によると、SRPOでは現実性と芸術的評価点数が3倍以上向上し、従来の方法よりも訓練時間が75倍短縮されています。この技術が広く普及すれば、今後のAIが生成する画像の現実感は大幅に向上し、デジタルアート制作に新たな可能性をもたらすことを期待しています。
プロジェクトのURL:https://tencent.github.io/srpo-project-page/
