コンピュータビジョンの分野において、AIが人間のように画像を観察し、そのすべての部分を詳細に説明できるようにすることは長年課題でした。最近、アップル社とウィスコンシン大学マディソン校は、
このフレームワークは「密な画像記述」を目的として設計されており、AIが単なる概要ではなく、「机上の赤いリンゴ」や「遠くの歩行者」などの画像の詳細を正確に捉え説明できるようにするものです。

小規模で大成果の強化学習:Qwen2.5が「審判者」として機能
従来の画像ラベリングは高価な人間の作業や、幻覚を起こしやすい大規模モデルに依存しており、データ品質が一定ではないことが問題でした。アップルの研究チームは、革新的な強化学習メカニズムによってこの課題を解決しました。システムはまずGPT-5とGemini 2.5 Proを使って候補となる説明を生成し、その後Gemini 2.5 Proが評価基準を精査し、Qwen2.5モデルが審判としてスコア付けを行いフィードバックを行います。
この構造化された正確なフィードバックにより、モデルはトレーニング中に誤りを明確に認識し修正できるようになり、より少ないパラメータ数でも高い記述精度を達成できます。
コンパクトなモデルの勝利:低幻覚率でテラ級モデルを上回る
