近期,斯坦福大學和華盛頓大學的 AI 研究人員成功訓練出了一款名爲 s1的 AI 推理模型,訓練成本不足50美元,所需的雲計算信用額度也非常低。這項研究成果於上週五發布,表明 s1在數學和編程能力測試上表現不遜於 OpenAI 的 o1模型和 DeepSeek 的 R1模型。s1的代碼和數據已在 GitHub 上公開,供其他研究者使用。

研究團隊表示,他們從一個現成的基礎模型出發,通過蒸餾技術進行微調,以提取出所需的推理能力。s1的蒸餾過程使用了谷歌的 Gemini2.0Flash Thinking Experimental 模型,這種方法與加州大學伯克利分校的研究人員上個月訓練另一款 AI 推理模型時採用的方式相似,後者的訓練成本約爲450美元。
這一成果讓許多人感到振奮,尤其是在如今的 AI 領域,研究者們能夠在沒有鉅額資金支持的情況下仍能進行創新。然而,s1的出現也引發了對 AI 模型商品化的深思。若任何人都可以以相對較低的成本複製出多百萬美元的模型,那麼這些大公司的護城河究竟在哪裏呢?
顯然,大型 AI 實驗室對此並不滿意,OpenAI 曾指控 DeepSeek 不當使用其 API 數據進行模型蒸餾。s1的研究團隊希望能找到一種簡單的方法來實現強大的推理性能,同時提升 “測試時間擴展” 能力,即讓 AI 模型在回答問題之前有更多思考時間。這些都是 OpenAI 的 o1模型所取得的突破,DeepSeek 及其他 AI 實驗室也嘗試用不同的方法進行復制。
s1的研究表明,通過一個相對小的數據集,使用監督微調 (SFT) 方法可以有效蒸餾推理模型,而這種方法通常比 DeepSeek 採用的大規模強化學習方法更便宜。谷歌也提供了對 Gemini2.0Flash Thinking Experimental 的免費訪問,但該平臺有每日使用限制,並且其條款禁止逆向工程其模型以開發競爭服務。
爲了訓練 s1,研究人員構建了一個包含1000個經過精心挑選的問題及其對應答案的數據集,同時附上了問題背後的 “思考” 過程。訓練過程使用了16個 Nvidia H100GPU,耗時不足30分鐘。根據研究人員的介紹,他們如今只需約20美元就能租到所需的計算資源。此外,研究團隊還使用了一個巧妙的技巧,讓 s1在推理時添加 “等待” 一詞,從而提升答案的準確性。
在未來的2025年,Meta、谷歌和微軟計劃在 AI 基礎設施上投資數千億美元,其中部分資金將用於訓練下一代 AI 模型。儘管蒸餾技術在以較低成本再現 AI 模型的能力上展現出良好效果,但它並沒有顯著提升新的 AI 模型的表現。
論文:https://arxiv.org/pdf/2501.19393
代碼:https://github.com/simplescaling/s1
劃重點:
🌟 s1模型的訓練成本不足50美元,表現媲美頂尖推理模型。
🛠️ 研究團隊通過蒸餾技術,從現成模型中提取推理能力,訓練過程快速高效。
🚀 大型 AI 實驗室對低成本複製模型的情況表示擔憂,未來投資將集中在 AI 基礎設施上。
