近日,騰訊推出了一種新方法,旨在提升 AI 生成圖像的真實感與美學評分。據悉,這一微調技術在僅用32塊 H20顯卡訓練10分鐘後就能實現顯著的收斂效果,其人工評估得分甚至提升了300% 以上。

當前的擴散模型雖然能夠藉助獎勵機制來優化圖像質量,但卻面臨着一些挑戰。首先,模型優化步驟較少,容易出現所謂的 “獎勵作弊” 現象,即模型爲了獲取高分而生成質量較低的圖像。其次,離線調整獎勵模型的過程不夠靈活,限制了實時優化的能力。

image.png

爲了解決這些問題,騰訊團隊提出了兩個創新性的方法。第一個是名爲 “Direct-Align” 的技術,通過預先注入噪聲,模型能夠從任何時間點恢復原圖。這種方法減少了早期反向傳播中的梯度爆炸現象,使得模型在整個擴散過程中都能夠進行優化,而不僅僅侷限於最後的幾個步驟。

第二個創新是 “語義相對偏好優化”(SRPO)。這一方法將獎勵信號轉變爲可受文本控制的信號。通過添加正面和負面提示詞,模型能夠靈活地調整生成圖像的風格,而無需額外數據。這意味着,用戶只需在提示詞前加上簡單的控制短語,即可實現如亮度調整或風格轉換等功能。

實驗結果顯示,經過 SRPO 訓練的 FLUX.1-dev 模型在真實感和美學質量上的表現均大幅提升。在一項包含3200個提示詞的測試中,經過 SRPO 訓練的模型在真實感維度上的優秀率由8.2% 提升至38.9%,而美學質量的優秀率從9.8% 提升至40.5%。相較於其它方法,SRPO 不僅在保持高美學質量的同時,生成的圖像紋理更加自然。

這一技術的成功應用,不僅表明騰訊在 AI 繪畫領域的進一步探索,也爲未來的 AI 圖像生成技術指明瞭方向。

論文地址:https://arxiv.org/pdf/2509.06942