LLM爲啥總是被數學題難倒？AI算術推理竟是靠“蒙”的！

最近，AI 大型語言模型（LLM）在各種任務中表現出色，寫詩、寫代碼、聊天都不在話下，簡直是無所不能!但是，你敢相信嗎?這些“天才”AI 居然是“數學菜鳥”!它們在處理簡單的算術題時經常翻車，讓人大跌眼鏡。

一項最新的研究揭開了 LLM 算術推理能力背後的“奇葩”祕訣:它們既不依賴強大的算法，也不完全依靠記憶，而是採用了一種被稱爲“啓發式大雜燴”的策略! 這就好比一個學生，沒有認真學習數學公式和定理，而是靠着一些“小聰明”和“經驗法則”來蒙答案。

研究人員以算術推理作爲典型任務，對 Llama3、Pythia 和 GPT-J 等多個 LLM 進行了深入分析。他們發現，LLM 模型中負責算術計算的部分（稱爲“電路”）是由許多單個神經元組成的，每個神經元都像一個“微型計算器”，只負責識別特定的數字模式並輸出對應的答案。比如，一個神經元可能專門負責識別“個位數是8的數字”，另一個神經元則負責識別“結果在150到180之間的減法運算”。

這些“微型計算器”就像一堆雜亂無章的工具，LLM 並非按照特定的算法來使用它們，而是根據輸入的數字模式，隨機地組合使用這些“工具”來計算答案。這就像一個廚師，沒有固定的菜譜，而是根據手邊現有的食材，隨意搭配，最終做出一道“黑暗料理”。

更令人驚訝的是，這種“啓發式大雜燴”的策略居然在 LLM 訓練的早期就出現了，並隨着訓練的進行逐漸完善。這意味着，LLM 從一開始就依賴於這種“拼湊”式的推理方法，而不是在後期才發展出這種策略。

那麼，這種“奇葩”的算術推理方法會導致什麼問題呢?研究人員發現，“啓發式大雜燴”策略的泛化能力有限，容易出現錯誤。這是因爲 LLM 所掌握的“小聰明”數量有限，而且這些“小聰明”本身也可能存在缺陷，導致它們在遇到新的數字模式時無法給出正確答案。就像一個只會做“番茄炒蛋”的廚師，突然讓他做一道“魚香肉絲”，他肯定會手忙腳亂，不知所措。

這項研究揭示了 LLM 算術推理能力的侷限性，也爲未來改進 LLM 的數學能力指明瞭方向。研究人員認爲，僅僅依靠現有的訓練方法和模型架構可能不足以提升 LLM 的算術推理能力，需要探索新的方法來幫助 LLM 學習更強大、更泛化的算法，讓它們真正成爲“數學高手”。

論文地址：https://arxiv.org/pdf/2410.21272

LLM爲啥總是被數學題難倒？AI算術推理竟是靠“蒙”的！

相關推薦

日本科學家發佈“Sui”編程語言，宣稱能讓 LLM100% 準確編寫代碼

醫療AI新突破！南洋理工發佈首個電子病歷處理評測標準

MIT 推出新方法，顯著提升大型語言模型計算效率

OpenAI 推出 AI “懺悔”框架:旨在訓練模型承認不當行爲，提高誠實度

谷歌 DeepMind 推出 Evo-Memory 基準與 ReMem 框架，推動 LLM 智能體的經驗重用

LLM爲啥總是被數學題難倒？AI算術推理竟是靠“蒙”的！

相關推薦

日本科學家發佈“Sui”編程語言，宣稱能讓 LLM100% 準確編寫代碼

醫療AI新突破！南洋理工發佈首個電子病歷處理評測標準

MIT 推出新方法，顯著提升大型語言模型計算效率

OpenAI 推出 AI “懺悔”框架:旨在訓練模型承認不當行爲，提高誠實度

​谷歌 DeepMind 推出 Evo-Memory 基準與 ReMem 框架，推動 LLM 智能體的經驗重用

谷歌 DeepMind 推出 Evo-Memory 基準與 ReMem 框架，推動 LLM 智能體的經驗重用