成本不足50美元！研究人員訓練出AI推理模型s1，媲美OpenAI的o1

近期，斯坦福大學和華盛頓大學的 AI 研究人員成功訓練出了一款名爲 s1的 AI 推理模型，訓練成本不足50美元，所需的雲計算信用額度也非常低。這項研究成果於上週五發布，表明 s1在數學和編程能力測試上表現不遜於 OpenAI 的 o1模型和 DeepSeek 的 R1模型。s1的代碼和數據已在 GitHub 上公開，供其他研究者使用。

研究團隊表示，他們從一個現成的基礎模型出發，通過蒸餾技術進行微調，以提取出所需的推理能力。s1的蒸餾過程使用了谷歌的 Gemini2.0Flash Thinking Experimental 模型，這種方法與加州大學伯克利分校的研究人員上個月訓練另一款 AI 推理模型時採用的方式相似，後者的訓練成本約爲450美元。

這一成果讓許多人感到振奮，尤其是在如今的 AI 領域，研究者們能夠在沒有鉅額資金支持的情況下仍能進行創新。然而，s1的出現也引發了對 AI 模型商品化的深思。若任何人都可以以相對較低的成本複製出多百萬美元的模型，那麼這些大公司的護城河究竟在哪裏呢?

顯然，大型 AI 實驗室對此並不滿意，OpenAI 曾指控 DeepSeek 不當使用其 API 數據進行模型蒸餾。s1的研究團隊希望能找到一種簡單的方法來實現強大的推理性能，同時提升 “測試時間擴展” 能力，即讓 AI 模型在回答問題之前有更多思考時間。這些都是 OpenAI 的 o1模型所取得的突破，DeepSeek 及其他 AI 實驗室也嘗試用不同的方法進行復制。

s1的研究表明，通過一個相對小的數據集，使用監督微調（SFT）方法可以有效蒸餾推理模型，而這種方法通常比 DeepSeek 採用的大規模強化學習方法更便宜。谷歌也提供了對 Gemini2.0Flash Thinking Experimental 的免費訪問，但該平臺有每日使用限制，並且其條款禁止逆向工程其模型以開發競爭服務。

爲了訓練 s1，研究人員構建了一個包含1000個經過精心挑選的問題及其對應答案的數據集，同時附上了問題背後的 “思考” 過程。訓練過程使用了16個 Nvidia H100GPU，耗時不足30分鐘。根據研究人員的介紹，他們如今只需約20美元就能租到所需的計算資源。此外，研究團隊還使用了一個巧妙的技巧，讓 s1在推理時添加 “等待” 一詞，從而提升答案的準確性。

在未來的2025年，Meta、谷歌和微軟計劃在 AI 基礎設施上投資數千億美元，其中部分資金將用於訓練下一代 AI 模型。儘管蒸餾技術在以較低成本再現 AI 模型的能力上展現出良好效果，但它並沒有顯著提升新的 AI 模型的表現。

論文:https://arxiv.org/pdf/2501.19393

代碼:https://github.com/simplescaling/s1

劃重點:
🌟 s1模型的訓練成本不足50美元，表現媲美頂尖推理模型。
🛠️ 研究團隊通過蒸餾技術，從現成模型中提取推理能力，訓練過程快速高效。
🚀 大型 AI 實驗室對低成本複製模型的情況表示擔憂，未來投資將集中在 AI 基礎設施上。

OpenAI 新系統阻斷生物和化學風險信息，保障 AI 安全

OpenAI 近期推出了一項新系統，旨在監控其最新的 AI 推理模型 o3和 o4-mini，以阻止與生物和化學威脅相關的提示。該系統的目標是防止模型提供可能教唆他人實施有害攻擊的建議，確保 AI 的安全性。OpenAI 表示，o3和 o4-mini 在能力上較之前的模型有顯著提升，因此在惡意用戶手中可能帶來新的風險。根據 OpenAI 的內部基準測試，o3在回答關於某些生物威脅的相關問題時，表現得尤爲出色。爲了應對這些風險，OpenAI 開發了這個新的監控系統，稱之爲 “以安全爲中心的推理監測器”。這個監測器

谷歌發佈全新推理 AI 模型 Gemini 2.5和Gemini 2.5 Pro實驗版

近日，谷歌在開發者平臺 Google AI Studio 及 Gemini 應用程序上發佈了其最新的人工智能推理模型 ——Gemini2.5。此模型具備停下來 “思考” 的能力，標誌着人工智能技術的新進步。谷歌還推出了 Gemini2.5Pro Experimental，這款多模式推理 AI 模型被認爲是迄今爲止最智能的。Gemini2.5的發佈是谷歌針對每月20美元的 Gemini Advanced 訂閱者的一項新服務，用戶可以體驗到其強大的推理能力。自從2024年9月 OpenAI 發佈首個 AI 推理模型以來，各大科技公司如 Anthropic、DeepSeek、谷歌和 xAI 等紛紛推出了各自的推理模

騰訊混元T1正式版和DeepSeek V3-0324上線元寶

騰訊混元 T1正式版上週發佈後，不少用戶關心何時能夠在元寶中使用這一新版本。對此，騰訊官方在最新消息中宣佈，混元 T1正式版與 DeepSeek V3最新版一同上線，爲用戶帶來了全新的體驗。混元 T1正式版是騰訊自研的深度思考模型，與之前的 T1Preview 版本相比，進行了全面的升級。新版本不僅提升了速度和性能，還顯著改善了綜合效果，能夠實現秒級響應，滿足用戶對推理模型的高效需求。用戶體驗的優化使得混元 T1在各類推理任務中表現得更加出色。此外，與混元 T1同時推出的還有 DeepS

谷歌全面升級Flash Thinking2.0，深度研究功能開放全體用戶

谷歌近日宣佈對其推理模型Flash Thinking2.0進行重大升級，同時將深度研究功能的訪問權限擴展至所有用戶。此次更新帶來了多項實用功能，顯著提升了人工智能系統的處理能力和用戶體驗。根據官方介紹，Flash Thinking2.0最新版本新增了文件上傳功能，並大幅提高了處理速度。對於Gemini Advanced用戶而言，該系統現在能夠在單個上下文窗口中處理高達100萬個標記的信息量，這意味着AI可以同時分析和理解更大規模的數據集。與此同時，谷歌通過Flash Thinking2.0對深度研究功能進行了優化。升級後的

成本不足50美元！研究人員訓練出AI推理模型s1，媲美OpenAI的o1

相關推薦

阿里Qwen3-Max-Thinking在全球數學競賽中拔得頭籌，挑戰 OpenAI 的領先地位

OpenAI 新系統阻斷生物和化學風險信息，保障 AI 安全

谷歌發佈全新推理 AI 模型 Gemini 2.5和Gemini 2.5 Pro實驗版

騰訊混元T1正式版和DeepSeek V3-0324上線元寶

谷歌全面升級Flash Thinking2.0，深度研究功能開放全體用戶

成本不足50美元！研究人員訓練出AI推理模型s1，媲美OpenAI的o1

相關推薦

​阿里Qwen3-Max-Thinking在全球數學競賽中拔得頭籌，挑戰 OpenAI 的領先地位

​OpenAI 新系統阻斷生物和化學風險信息，保障 AI 安全

​谷歌發佈全新推理 AI 模型 Gemini 2.5和Gemini 2.5 Pro實驗版

騰訊混元T1正式版和DeepSeek V3-0324上線元寶

谷歌全面升級Flash Thinking2.0，深度研究功能開放全體用戶

阿里Qwen3-Max-Thinking在全球數學競賽中拔得頭籌，挑戰 OpenAI 的領先地位

OpenAI 新系統阻斷生物和化學風險信息，保障 AI 安全

谷歌發佈全新推理 AI 模型 Gemini 2.5和Gemini 2.5 Pro實驗版