在計算機視覺領域,如何讓 AI 像人類一樣觀察並細緻描述圖片的每一個角落,一直是業內的難題。近日,蘋果公司聯合威斯康星大學麥迪遜分校,正式發佈了一款名爲
該框架專爲“密集圖像描述”設計,旨在讓 AI 不再只提供籠統的概括,而是能精準捕捉並說明“桌上的紅蘋果”或“遠處的行人”等圖像細節。

以小博大的強化學習:Qwen2.5 擔任“裁判”
傳統的圖像標註往往依賴昂貴的人工或容易產生幻覺的大模型,導致數據質量參差不齊。蘋果研究團隊通過創新的強化學習機制解決了這一痛點。系統首先利用 GPT-5 和 Gemini 2.5 Pro 生成候選描述,隨後由 Gemini 2.5 Pro 提煉評分標準,並由 Qwen2.5 模型 擔任裁判進行打分反饋。
這種結構化的精準反饋,讓模型在訓練過程中能夠明確感知並修正錯誤,從而在更小的參數規模下實現更高的描述準確度。
緊湊型模型的勝利:低幻覺率超越千億大模
基於該框架訓練出的
這一突破有力地證明了,高質量的圖像理解能力並不完全依賴龐大的參數堆砌,而是源於更科學的訓練範式。
