最近、Meta、カリフォルニア大学バークレー校、ニューヨーク大学の科学者らが共同で、「思考選好最適化」(Thought Preference Optimization、略してTPO)と呼ばれる新技術を開発しました。この技術の目的は、大規模言語モデル(LLM)が様々なタスクを実行する際の性能を向上させ、AIが回答する前に自身の反応をより慎重に検討できるようにすることです。

image.png

研究者らは、「思考」は幅広い実用性を持つべきだと述べています。例えば、クリエイティブライティングのタスクでは、AIは内在的な思考プロセスを利用して全体的な構成や登場人物の発展を計画することができます。この方法は、従来の「連鎖思考」(Chain-of-Thought、CoT)プロンプト技術とは大きく異なります。CoTは主に数学や論理的なタスクに適用されますが、TPOの適用範囲ははるかに広いです。研究者らはOpenAIの新しいo1モデルに触れ、思考のプロセスはより広範なタスクにも役立つと考えています。

では、TPOはどのように機能するのでしょうか?まず、モデルは質問に答える前に一連の思考ステップを生成します。次に、複数の出力を生成し、その後、評価モデルによって最終的な回答のみが評価され、思考ステップ自体は評価されません。最後に、これらの評価結果の選好を最適化することで、モデルのトレーニングが行われます。研究者らは、回答の質の向上は思考プロセスの改善を通じて実現でき、それによってモデルが暗黙的な学習においてより効果的な推論能力を得られることを期待しています。

テストでは、TPOを使用したLlama38Bモデルは、明示的な推論を採用していないバージョンよりも、一般的な指示に従うベンチマークテストで優れた性能を示しました。AlpacaEvalとArena-Hardのベンチマークテストでは、TPOの勝率はそれぞれ52.5%と37.3%に達しました。さらに驚くべきことに、TPOは、通常は明示的な思考を必要としない常識、マーケティング、健康などの分野でも進歩を遂げました。

しかし、研究チームは、現在の設定は数学の問題には適していないと指摘しています。これらのタスクでは、TPOの性能は実際には基本モデルを下回っているためです。これは、高度に専門化されたタスクには異なる方法を採用する必要があることを示唆しています。今後の研究では、思考プロセスの長さの制御や、より大規模なモデルへの思考の影響などに焦点を当てる可能性があります。

要点:

🌟 研究チームは、AIのタスク実行における思考能力を高めることを目的とした「思考選好最適化」(TPO)を発表しました。

🧠 TPOは、モデルが回答する前に思考ステップを生成し、評価モデルを使用して回答の質を最適化します。

📈 テストの結果、TPOは常識やマーケティングなどの分野で優れた性能を示しましたが、数学の問題では性能が劣りました。