最近,蘋果公司發佈了一篇引發熱議的論文,指出當前的大語言模型(LLM)在推理方面存在重大缺陷。這一觀點迅速在社交媒體上引起熱議,尤其是 GitHub 的高級軟件工程師 Sean Goedecke 對此提出了強烈反對。他認爲,蘋果的結論過於片面,並不能全面反映推理模型的能力。
蘋果的論文指出,在解決數學和編程等基準測試時,LLM 的表現並不可靠。蘋果研究團隊採用了漢諾塔這一經典的人工謎題,分析了推理模型在不同複雜度下的表現。研究發現,模型在面對簡單謎題時表現較好,而在複雜度較高的任務中,推理模型往往選擇放棄,不再繼續推理。

例如,在處理十盤漢諾塔問題時,模型會覺得手動列出每一步幾乎不可能,因此選擇尋找 “捷徑”,但最終卻未能得出正確答案。這一發現表明,推理模型在某些情況下並非沒有能力,而是意識到問題過於複雜而選擇放棄。
不過,Sean Goedecke 對此表示質疑,他認爲漢諾塔並不是測試推理能力的最佳例子,模型的複雜性閾值也可能並非固定。此外,他還提到,推理模型的設計初衷是爲了處理推理任務,而不是執行數千次重複性步驟。用漢諾塔測試推理能力,就像在說:“如果某個模型不能寫出複雜的詩歌,那它就不具備語言能力”,這並不公平。
雖然蘋果的研究揭示了 LLM 在推理方面的一些侷限,但這並不意味着這些模型完全沒有推理能力。真正的挑戰在於如何更好地設計和評估這些模型,以發掘它們的潛力。
