生成式語言模型在從訓練到實際應用的過程中面臨着許多挑戰。其中一個主要問題是如何在推理階段使模型達到最佳表現。

目前的對策,如通過人類反饋的強化學習(RLHF),主要集中在提高模型的勝率上,但往往忽視了推理時的解碼策略,例如 Best-of-N 採樣和控制解碼。這種訓練目標與實際使用之間的差距,可能導致效率低下,影響輸出的質量和可靠性。

爲了解決這些問題,谷歌 DeepMind 和谷歌研究團隊開發了 InfAlign,這是一個旨在與推理策略相結合的機器學習框架。InfAlign 將推理時的方法納入對齊過程,力求彌補訓練與應用之間的鴻溝。它通過一種校準的強化學習方法來調整基於特定推理策略的獎勵函數。InfAlign 對 Best-of-N 採樣(生成多個響應並選擇最佳者)和 Worst-of-N(常用於安全評估)等技術特別有效,確保對齊的模型在控制環境和現實場景中都能表現良好。

image.png

InfAlign 的核心是校準與變換強化學習(CTRL)算法,該算法遵循三個步驟:校準獎勵分數、根據推理策略變換這些分數、解決一個 KL 正則化的優化問題。通過將獎勵變換定製化到特定場景,InfAlign 將訓練目標與推理需求對齊。這種方法不僅提升了推理時的勝率,還保持了計算效率。此外,InfAlign 增強了模型的魯棒性,使其能夠有效應對各種解碼策略,併產生一致的高質量輸出。

在使用 Anthropic 的有用性和無害性數據集進行的實驗中,InfAlign 的有效性得到了驗證。與現有方法相比,InfAlign 在 Best-of-N 採樣的推理勝率上提高了8%-12%,在 Worst-of-N 安全評估中則提高了4%-9%。這些改進得益於其校準的獎勵變換,有效解決了獎勵模型的誤校準問題,確保了在不同推理場景下的一致表現。

InfAlign 在生成語言模型的對齊方面代表了一項重要的進展。通過結合推理感知的策略,InfAlign 解決了訓練與部署之間的關鍵差異。它紮實的理論基礎和實證結果凸顯了其在全面改善 AI 系統對齊方面的潛力。

鏈接:https://arxiv.org/abs/2412.19792

劃重點:

🌟 InfAlign 是谷歌 DeepMind 開發的新框架,旨在提升語言模型在推理階段的表現。  

📈 該框架通過校準的強化學習方法,調整推理策略的獎勵函數,實現訓練目標與推理需求的對齊。  

✅ 實驗結果表明,InfAlign 在多項任務中顯著提高了模型的推理勝率,展現出良好的適應性和可靠性。