近日,來自卡內基梅隆大學、斯坦福大學、哈佛大學和普林斯頓大學的研究人員揭示了一個關於大語言模型(LLMs)訓練的新發現:並不是預訓練的數據越多,模型的表現就越好。相反,他們指出,過度的預訓練可能會導致模型性能下降,出現一種被稱爲 “災難性過度訓練” 的現象。

在一項研究中,研究者們對 OLMo-1B 模型進行了比較,分別對其進行了2.3萬億和3萬億個標記的訓練。出乎意料的是,雖然第二個模型接受了更多的數據訓練,但其在一些基準測試(例如 AlpacaEval 和 ARC)的表現卻下降了多達3%。這引發了人們對傳統觀點的質疑:多訓練是否真的意味着更好?

元宇宙 科幻 賽博朋克 繪畫 (3)大模型

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

研究者解釋稱,這種性能下降與 “漸進敏感性” 現象有關。隨着模型接受的標記數量增加,模型對微小變化變得更加脆弱。比如,在微調過程中即使是一些小的調整或噪音的引入,都可能導致先前的訓練效果被逆轉。爲了驗證這一點,研究者們在模型中注入高斯噪聲,結果顯示,經過更長時間訓練的模型性能下降得更加明顯。

在研究中,作者提出了一個關鍵概念,即 “拐點”,即在這個點上,額外的訓練開始導致性能的下降,而不是提升。對於較小的模型如 OLMo-1B 來說,這一拐點通常出現在超過2.5萬億個標記之後。研究者警告說,“災難性過度訓練” 可能是不可避免的,尤其是在預訓練和微調任務不匹配的情況下。

雖然研究者並沒有建議完全放棄預訓練,但他們強調,開發者應該認真思考預訓練的量要適度。研究的結論呼籲在模型擴展方面重新審視整個訓練流程的設計。對於那些追求模型規模的 AI 開發者而言,這項研究傳達的信息十分明確:有時候,少就是多。