最近,蘋果公司進行了一項關於大語言模型(LLM)推理能力的研究,引發了人們對這些模型在數學領域表現的關注。

衆所周知,GSM8K 基準測試被廣泛用於評估模型在小學數學問題上的推理能力。儘管 LLM 在 GSM8K 上的表現近年來有所提高,但研究人員對此結果的可靠性產生了質疑。因此,他們進行了大規模的研究,探討當前最先進的開源和閉源模型的表現。

爲了更好地評估模型的推理能力,研究團隊引入了一種改進的基準測試 ——GSM-Symbolic。這個新基準測試使用符號模板生成多樣化的問題,能夠更好地控制評估過程,提供更可靠的指標。

image.png

研究發現,當問題中的數值被改變時,LLM 的表現明顯出現波動。更有趣的是,隨着問題中條款數量的增加,模型的表現顯著下降。研究人員推測,這種表現的下降表明現有的 LLM 並不具備真正的邏輯推理能力,而是簡單地模仿訓練數據中的推理步驟。

在實驗中,當僅增加一個看似相關的條款時,所有最先進模型的表現下降幅度高達65%。這些條款雖然與得出最終答案的推理鏈無關,卻依然對模型的表現產生了巨大的影響。總體而言,這項研究爲我們提供了對 LLM 在數學推理方面的能力和侷限性的更深刻理解。

劃重點:

🔍 LLM 的數學推理能力在不同問題實例中表現出明顯的差異。  

📉 隨着問題複雜度增加,LLM 的表現顯著下降,尤其是在增加額外條款後。  

🤖 現有 LLM 並不具備真正的邏輯推理能力,它們主要依賴於訓練數據的重複和模仿。