在計算機視覺領域,如何讓 AI 像人類一樣觀察並細緻描述圖片的每一個角落,一直是業內的難題。近日,蘋果公司聯合威斯康星大學麥迪遜分校,正式發佈了一款名爲RubiCap的全新 AI 訓練框架。

該框架專爲“密集圖像描述”設計,旨在讓 AI 不再只提供籠統的概括,而是能精準捕捉並說明“桌上的紅蘋果”或“遠處的行人”等圖像細節。

image.png

以小博大的強化學習:Qwen2.5 擔任“裁判”

傳統的圖像標註往往依賴昂貴的人工或容易產生幻覺的大模型,導致數據質量參差不齊。蘋果研究團隊通過創新的強化學習機制解決了這一痛點。系統首先利用 GPT-5 和 Gemini 2.5 Pro 生成候選描述,隨後由 Gemini 2.5 Pro 提煉評分標準,並由 Qwen2.5 模型 擔任裁判進行打分反饋。

這種結構化的精準反饋,讓模型在訓練過程中能夠明確感知並修正錯誤,從而在更小的參數規模下實現更高的描述準確度。

緊湊型模型的勝利:低幻覺率超越千億大模

基於該框架訓練出的RubiCap系列模型(涵蓋 20 億至 70 億參數)在測試中展現了驚人的效率。實驗數據證明,僅有 70 億參數的 RubiCap 模型在盲測中獲得了最高排名,其“幻覺”錯誤率甚至低於參數量高達 720 億的前沿大模型。更令人意外的是,30 億參數的微型版本在部分指標上甚至反超了 70 億版本。

這一突破有力地證明了,高質量的圖像理解能力並不完全依賴龐大的參數堆砌,而是源於更科學的訓練範式。