現在的AI看圖,其實有個隱藏的短板。
問它"這張圖裏有什麼",它能答得頭頭是道。但要問"圖中那隻熊貓的左後腿在哪裏",它就開始含糊了。這不是個別模型的問題,而是整個視覺-語言大模型領域長期存在的通病——全局理解強,局部定位弱。
谷歌DeepMind在最新論文中提出了TIPSv2方案,專門來啃這塊硬骨頭。

研究團隊在調查中發現了一個反直覺的現象:在精細分割任務上,參數量少的"學生模型"表現經常碾壓體量更大的"教師模型"。原因在於,蒸餾過程移除了遮蓋機制,迫使模型學習整張圖的所有細節,形成了"全區域監督"。受此啓發,TIPSv2圍繞這一發現做出了三項關鍵改進。
第一項是iBOT++。傳統預訓練只對圖像中被遮蓋的區域計算損失,可見區域處於"放養"狀態,局部語義容易漂移。iBOT++要求模型同時對所有可見區域進行精確監督,相當於從"猜謎遊戲"升級爲"全文精讀"。僅這一項改動,零樣本分割性能就直接提升了14.1個百分點。
第二項是Head-only EMA。傳統自監督訓練需要在顯存裏維護兩份幾乎相同的大模型,開銷極大。TIPSv2發現圖文對比損失本身已經能穩定主幹網絡,因此EMA只需作用於最後的投影頭,主幹不再複製。結果是訓練參數量直接縮減約42%,速度更快,性能幾乎無損。
第三項是多粒度文本搭配。訓練時將網頁簡短描述、中等詳細描述和Gemini生成的長描述混合隨機餵給模型,難易交替,既防止模型因任務太簡單而"偷懶",又確保細節不丟失。
最終效果相當紮實。TIPSv2在9大任務、20個權威數據集上完成凍結評估,零樣本語義分割刷新業界最優,圖文檢索與分類擊敗了參數量比自身大56%的對比模型,純視覺任務也全面躋身前列。
目前TIPSv2的代碼與模型權重已全面開源。對於醫療影像、自動駕駛、工業檢測等需要高精度圖像理解的團隊來說,這套方案值得認真評估。
論文地址:https://www.alphaxiv.org/abs/2604.12012
