蘋果論文又炸場！Qwen3-Coder 被“特調”後，UI 生成能力竟超越了 GPT-5？

誰說“小模型”不能打敗“大巨人”？近日，蘋果UICoder團隊發佈了一篇震撼 AI 界的最新研究論文，展示了他們如何通過“魔改”開源模型，在特定領域實現對頂尖大模型的逆襲。

這次，蘋果瞄準的是所有開發者都頭疼的 UI（界面）開發。

目前 AI 生成代碼雖然厲害，但在 UI 設計上往往表現平平。原因很簡單：傳統的“人類反饋強化學習”（RLHF）太粗糙了。以往 AI 學習設計，就像是在聽設計師說“這個界面不行”，但 AI 根本不知道哪裏不行，也不知道怎麼改。

爲了調教出“審美在線”的 AI，蘋果請來了 21 位資深外援。

這些擁有 2 到 30 年經驗的設計大咖不再只是簡單地打分，而是擼起袖子直接下場：寫評論、畫草圖、改代碼。蘋果團隊收集了 1460 條這種帶有深度邏輯的專家註釋，並據此構建了一個專門的獎勵模型。

令人驚歎的結果出現了：微調後的 Qwen3-Coder 戰勝了 GPT-5。

實驗數據顯示，僅僅依靠 181 個高質量的“草圖反饋”進行微調，這個原本參數並不算巨量的模型，在生成 App 界面的能力上直接把GPT-5給超了。這再次印證了一個道理：在 AI 訓練中，專家級的“少而精”反饋，遠比海量的普通數據更具殺傷力。

研究還扎心地揭示了一個真相：審美真的主觀。

研究發現，普通人和專業設計師在判斷一個界面好不好看時，觀點一致率竟然只有 49.2%，跟拋硬幣沒區別。但一旦設計師通過“畫草圖”表達了具體修改意圖，一致率會瞬間飆升至 76.1%。這意味着，未來的 AI 設計工具不再是盲目猜測你的喜好，而是能真正聽懂你的視覺語言。

如果蘋果真的將這項技術植入 Xcode，或許“一句話生成精美 App”的時代真的不遠了。

歐洲 AI 絕地反擊！法國巨頭 Mistral 舉債 8.3 億美元，掃貨萬片英偉達芯片