蘋果再轟AI推理能力，GitHub大佬怒懟：這不是推理能力的真實面貌！

最近，蘋果公司發佈了一篇引發熱議的論文，指出當前的大語言模型（LLM）在推理方面存在重大缺陷。這一觀點迅速在社交媒體上引起熱議，尤其是 GitHub 的高級軟件工程師 Sean Goedecke 對此提出了強烈反對。他認爲，蘋果的結論過於片面，並不能全面反映推理模型的能力。

蘋果的論文指出，在解決數學和編程等基準測試時，LLM 的表現並不可靠。蘋果研究團隊採用了漢諾塔這一經典的人工謎題，分析了推理模型在不同複雜度下的表現。研究發現，模型在面對簡單謎題時表現較好，而在複雜度較高的任務中，推理模型往往選擇放棄，不再繼續推理。

例如，在處理十盤漢諾塔問題時，模型會覺得手動列出每一步幾乎不可能，因此選擇尋找 “捷徑”，但最終卻未能得出正確答案。這一發現表明，推理模型在某些情況下並非沒有能力，而是意識到問題過於複雜而選擇放棄。

不過，Sean Goedecke 對此表示質疑，他認爲漢諾塔並不是測試推理能力的最佳例子，模型的複雜性閾值也可能並非固定。此外，他還提到，推理模型的設計初衷是爲了處理推理任務，而不是執行數千次重複性步驟。用漢諾塔測試推理能力，就像在說:“如果某個模型不能寫出複雜的詩歌，那它就不具備語言能力”，這並不公平。

雖然蘋果的研究揭示了 LLM 在推理方面的一些侷限，但這並不意味着這些模型完全沒有推理能力。真正的挑戰在於如何更好地設計和評估這些模型，以發掘它們的潛力。

隱私不再是問題！WitNote—— 你的離線 AI 筆記助手

WitNote是一款完全離線的AI筆記工具，由獨立開發者推出，旨在解決用戶對在線AI工具隱私和訂閱費用的擔憂。它支持Windows和macOS平臺，允許用戶在本地使用大語言模型處理筆記，無需聯網，從而避免數據泄露和月費負擔。用戶只需下載並運行即可使用。

1美元跑200個瀏覽器任務！開源瀏覽器操控神器BU-30B-A3B-Preview橫空出世

近日，開源項目BrowserUse發佈自研大語言模型BU-30B-A3B-Preview，被譽爲網頁代理領域新標杆。該模型採用混合專家（MoE）架構，總參數達300億，但推理時僅激活部分參數，兼顧強大性能與輕量化運行，顯著降低了AI瀏覽器操作的成本與門檻。

日本數據科學家推出“零錯誤”編程語言 Sui，聲稱讓大模型寫代碼準確率達100%

日本數據科學家本田崇人推出全新編程語言Sui，其設計理念源自日本美學“粋”，追求極致精煉。該語言通過消除語法錯誤、用數字代替變量名、確保每行代碼獨立運行，旨在解決大模型生成代碼時常見的語法、命名混亂及上下文依賴問題，提升代碼生成質量。

蘋果再轟AI推理能力，GitHub大佬怒懟：這不是推理能力的真實面貌！

相關推薦

隱私不再是問題！WitNote—— 你的離線 AI 筆記助手

巴菲特在伯克希爾哈撒韋中重倉三家人工智能公司

1美元跑200個瀏覽器任務！開源瀏覽器操控神器BU-30B-A3B-Preview橫空出世

蘋果開源 SHARP 模型:告別漫長等待，1秒讓平面照片躍升3D 空間

日本數據科學家推出“零錯誤”編程語言 Sui，聲稱讓大模型寫代碼準確率達100%

蘋果再轟AI推理能力，GitHub大佬怒懟：這不是推理能力的真實面貌！

相關推薦

隱私不再是問題！WitNote—— 你的離線 AI 筆記助手

巴菲特在伯克希爾哈撒韋中重倉三家人工智能公司

1美元跑200個瀏覽器任務！開源瀏覽器操控神器BU-30B-A3B-Preview橫空出世

蘋果開源 SHARP 模型:告別漫長等待，1秒讓平面照片躍升3D 空間

​日本數據科學家推出“零錯誤”編程語言 Sui，聲稱讓大模型寫代碼準確率達100%

日本數據科學家推出“零錯誤”編程語言 Sui，聲稱讓大模型寫代碼準確率達100%