谷歌DeepMind新研究TIPSv2：讓AI真正"看懂"圖片，而不只是"掃一眼"

現在的AI看圖，其實有個隱藏的短板。

問它"這張圖裏有什麼"，它能答得頭頭是道。但要問"圖中那隻熊貓的左後腿在哪裏"，它就開始含糊了。這不是個別模型的問題，而是整個視覺-語言大模型領域長期存在的通病——全局理解強，局部定位弱。

谷歌DeepMind在最新論文中提出了TIPSv2方案，專門來啃這塊硬骨頭。

研究團隊在調查中發現了一個反直覺的現象:在精細分割任務上，參數量少的"學生模型"表現經常碾壓體量更大的"教師模型"。原因在於，蒸餾過程移除了遮蓋機制，迫使模型學習整張圖的所有細節，形成了"全區域監督"。受此啓發，TIPSv2圍繞這一發現做出了三項關鍵改進。

第一項是iBOT++。傳統預訓練只對圖像中被遮蓋的區域計算損失，可見區域處於"放養"狀態，局部語義容易漂移。iBOT++要求模型同時對所有可見區域進行精確監督，相當於從"猜謎遊戲"升級爲"全文精讀"。僅這一項改動，零樣本分割性能就直接提升了14.1個百分點。

第二項是Head-only EMA。傳統自監督訓練需要在顯存裏維護兩份幾乎相同的大模型，開銷極大。TIPSv2發現圖文對比損失本身已經能穩定主幹網絡，因此EMA只需作用於最後的投影頭，主幹不再複製。結果是訓練參數量直接縮減約42%，速度更快，性能幾乎無損。

第三項是多粒度文本搭配。訓練時將網頁簡短描述、中等詳細描述和Gemini生成的長描述混合隨機餵給模型，難易交替，既防止模型因任務太簡單而"偷懶"，又確保細節不丟失。

最終效果相當紮實。TIPSv2在9大任務、20個權威數據集上完成凍結評估，零樣本語義分割刷新業界最優，圖文檢索與分類擊敗了參數量比自身大56%的對比模型，純視覺任務也全面躋身前列。

目前TIPSv2的代碼與模型權重已全面開源。對於醫療影像、自動駕駛、工業檢測等需要高精度圖像理解的團隊來說，這套方案值得認真評估。

論文地址：https://www.alphaxiv.org/abs/2604.12012

OpenAI表態支持特朗普AI行政令：願在模型發佈前接受政府安全評估

OpenAI表示將遵守特朗普簽署的人工智能模型發佈前審查行政命令。公司全球事務負責人喬治·奧斯本在倫敦SXSW活動上確認，將簽署這項自願性命令並參與評估。他強調OpenAI對自身責任“非常嚴肅”，並指出作爲掌握強大技術的公司，需謹慎行事。

OpenAI CEO 薩姆・奧特曼：積極主動的 AI 將成爲未來趨勢

OpenAI首席執行官薩姆·奧特曼提出AI產品發展三階段理論：第一階段是聊天模型（如ChatGPT），第二階段爲基於代理的系統（如Codex），第三階段是“積極主動的AI”，即後臺持續運行、自動執行任務的AI。當前代理階段是最大產品類別，主要響應客戶需求，但用戶使用中仍存在侷限。

MiniMax 因新模型計費模式變更致歉：承認溝通不足，公佈老用戶補償與退款方案

稀宇科技（MiniMax）推出新一代旗艦模型MiniMax-M3時，將按次計費改爲按Token消耗量計費，未提前充分溝通。由於Token消耗遠超預期，導致重度用戶額度快速耗盡，引發開發者強烈不滿。6月2日晚，MiniMax發佈致歉聲明，承認溝通不足。

OpenAI表態支持特朗普AI行政令：願在模型發佈前接受政府安全評估