蘋果研究揭示:大語言模型推理能力嚴重缺陷

最近，蘋果公司進行了一項關於大語言模型（LLM）推理能力的研究，引發了人們對這些模型在數學領域表現的關注。

衆所周知，GSM8K 基準測試被廣泛用於評估模型在小學數學問題上的推理能力。儘管 LLM 在 GSM8K 上的表現近年來有所提高，但研究人員對此結果的可靠性產生了質疑。因此，他們進行了大規模的研究，探討當前最先進的開源和閉源模型的表現。

爲了更好地評估模型的推理能力，研究團隊引入了一種改進的基準測試 ——GSM-Symbolic。這個新基準測試使用符號模板生成多樣化的問題，能夠更好地控制評估過程，提供更可靠的指標。

研究發現，當問題中的數值被改變時，LLM 的表現明顯出現波動。更有趣的是，隨着問題中條款數量的增加，模型的表現顯著下降。研究人員推測，這種表現的下降表明現有的 LLM 並不具備真正的邏輯推理能力，而是簡單地模仿訓練數據中的推理步驟。

在實驗中，當僅增加一個看似相關的條款時，所有最先進模型的表現下降幅度高達65%。這些條款雖然與得出最終答案的推理鏈無關，卻依然對模型的表現產生了巨大的影響。總體而言，這項研究爲我們提供了對 LLM 在數學推理方面的能力和侷限性的更深刻理解。

劃重點:
🔍 LLM 的數學推理能力在不同問題實例中表現出明顯的差異。
📉 隨着問題複雜度增加，LLM 的表現顯著下降，尤其是在增加額外條款後。
🤖 現有 LLM 並不具備真正的邏輯推理能力，它們主要依賴於訓練數據的重複和模仿。

隱私不再是問題！WitNote—— 你的離線 AI 筆記助手

WitNote是一款完全離線的AI筆記工具，由獨立開發者推出，旨在解決用戶對在線AI工具隱私和訂閱費用的擔憂。它支持Windows和macOS平臺，允許用戶在本地使用大語言模型處理筆記，無需聯網，從而避免數據泄露和月費負擔。用戶只需下載並運行即可使用。

1美元跑200個瀏覽器任務！開源瀏覽器操控神器BU-30B-A3B-Preview橫空出世

近日，開源項目BrowserUse發佈自研大語言模型BU-30B-A3B-Preview，被譽爲網頁代理領域新標杆。該模型採用混合專家（MoE）架構，總參數達300億，但推理時僅激活部分參數，兼顧強大性能與輕量化運行，顯著降低了AI瀏覽器操作的成本與門檻。

日本數據科學家推出“零錯誤”編程語言 Sui，聲稱讓大模型寫代碼準確率達100%

日本數據科學家本田崇人推出全新編程語言Sui，其設計理念源自日本美學“粋”，追求極致精煉。該語言通過消除語法錯誤、用數字代替變量名、確保每行代碼獨立運行，旨在解決大模型生成代碼時常見的語法、命名混亂及上下文依賴問題，提升代碼生成質量。

隱私不再是問題！WitNote—— 你的離線 AI 筆記助手