預訓練不等於更強大，研究揭示大語言模型的 “災難性過度訓練” 現象

近日，來自卡內基梅隆大學、斯坦福大學、哈佛大學和普林斯頓大學的研究人員揭示了一個關於大語言模型（LLMs）訓練的新發現:並不是預訓練的數據越多，模型的表現就越好。相反，他們指出，過度的預訓練可能會導致模型性能下降，出現一種被稱爲 “災難性過度訓練” 的現象。

在一項研究中，研究者們對 OLMo-1B 模型進行了比較，分別對其進行了2.3萬億和3萬億個標記的訓練。出乎意料的是，雖然第二個模型接受了更多的數據訓練，但其在一些基準測試（例如 AlpacaEval 和 ARC）的表現卻下降了多達3%。這引發了人們對傳統觀點的質疑:多訓練是否真的意味着更好?

元宇宙科幻賽博朋克繪畫 (3)大模型

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

研究者解釋稱，這種性能下降與 “漸進敏感性” 現象有關。隨着模型接受的標記數量增加，模型對微小變化變得更加脆弱。比如，在微調過程中即使是一些小的調整或噪音的引入，都可能導致先前的訓練效果被逆轉。爲了驗證這一點，研究者們在模型中注入高斯噪聲，結果顯示，經過更長時間訓練的模型性能下降得更加明顯。

在研究中，作者提出了一個關鍵概念，即 “拐點”，即在這個點上，額外的訓練開始導致性能的下降，而不是提升。對於較小的模型如 OLMo-1B 來說，這一拐點通常出現在超過2.5萬億個標記之後。研究者警告說，“災難性過度訓練” 可能是不可避免的，尤其是在預訓練和微調任務不匹配的情況下。

雖然研究者並沒有建議完全放棄預訓練，但他們強調，開發者應該認真思考預訓練的量要適度。研究的結論呼籲在模型擴展方面重新審視整個訓練流程的設計。對於那些追求模型規模的 AI 開發者而言，這項研究傳達的信息十分明確:有時候，少就是多。

藝術家反擊AI玩具潮流：手繪版本重新定義 “角色扮演”

最近，社交媒體上掀起了一股 AI 生成的動作玩具潮流。用戶們紛將自己的照片上傳至 ChatGPT，要求其將這些照片轉化爲迷你玩偶，這些玩偶被稱爲 “角色包”，不僅有着用戶的外貌，還配有個性化的小配件，如咖啡、筆記本電腦等，甚至標籤上還寫着他們的名字和職業。這一現象迅速傳播，引發了廣泛的討論和關注。然而，伴隨這一潮流而來的，藝術家們也開始展現他們的手繪才華，以抵制 AI 生成內容的泛濫。英國家居設計師霍莉・羅爾夫對此表示失望，認爲即使是一些小企業也不願支

北大研發全球首個基因挖掘大模型 SYMPLEX，助力生物製造新時代

近日，北京大學定量生物學中心的錢瓏團隊成功研發出全球首個專門用於功能基因挖掘的大語言模型 SYMPLEX。這一創新的模型能夠從海量的生物文獻中高效篩選出具有特定功能的關鍵基因，推動生物科技的發展。SYMPLEX 的問世，標誌着基因挖掘技術進入了一個全新的階段。團隊利用這一模型，進行 mRNA 加帽酶基因的挖掘，並取得了顯著的成果:新發現的加帽酶活性遠超目前用於 mRNA 疫苗生產的商業化酶。這一成果不僅展示了大語言模型在生物製造領域的巨大潛力，也爲未來的疫苗生產提供了

AI 天氣模型助力社區級精準預測，保險行業積極參與

近年來，天氣預報行業在準確性方面取得了顯著進展，但在局部天氣預測方面依然面臨挑戰。隨着人工智能天氣模型的迅速發展，許多小型商業公司開始具備快速進行專業化天氣預測的能力。這些預測不僅可以告訴你某個鄰里何時會下雨，還能準確預報風速，以便更好地調整風力發電機的運行。傳統上，公共氣象機構依賴大型超級計算機來處理複雜的物理方程，從而提供全球天氣預報。然而，隨着氣候變化使得極端天氣事件的發生頻率增加，對更加細緻入微的天氣預報的需求變得愈發迫切

Netflix 推出全新 AI 搜索引擎，由OpenAI提供支持

Netflix 最近向部分訂閱用戶推出了一項全新的 AI 搜索引擎工具，這一消息來自於《彭博社》的報道。這項由 OpenAI 支持的 AI 搜索引擎，突破了傳統的搜索方式，用戶再僅僅通過電影、電視劇的標題、類型或演員來查找內容。現在，用戶還可以通過多種其他搜索查詢，如心情等，來尋找適合自己的影視作品。由於這一工具是由 OpenAI 提供技術支持，用戶可以預計將使用自然語言進行搜索，提升了搜索的靈活性和便捷性。雖然人工智能在 Netflix 並不是全新概念，因其早已利用 AI 技術來驅動推薦

訪問OpenAI API中的未來AI模型將實施身份驗證制度以確保 AI 模型安全使用

最近，OpenAI 在其官方網站上發佈了一項新政策，表明未來的某些人工智能模型將需要組織進行身份驗證才能訪問。這一名爲 “已驗證組織” 的驗證流程，旨在爲開發者解鎖 OpenAI 平臺上最先進的模型和功能，提升 AI 技術的安全性與可控性。根據該政策，組織需要提供由 OpenAI API 支持的國家或地區政府頒發的身份證件，以完成身份驗證。需要注意的是，每90天內，一個身份證件只能驗證一個組織，而並非所有的組織都有資格進行這一驗證。OpenAI 在聲明中表示:“我們在 OpenAI 認真履行責任，

預訓練不等於更強大，研究揭示大語言模型的 “災難性過度訓練” 現象

相關推薦

藝術家反擊AI玩具潮流：手繪版本重新定義 “角色扮演”

北大研發全球首個基因挖掘大模型 SYMPLEX，助力生物製造新時代

AI 天氣模型助力社區級精準預測，保險行業積極參與

​Netflix 推出全新 AI 搜索引擎，由OpenAI提供支持

訪問OpenAI API中的未來AI模型將實施身份驗證制度 以確保 AI 模型安全使用

Netflix 推出全新 AI 搜索引擎，由OpenAI提供支持

訪問OpenAI API中的未來AI模型將實施身份驗證制度以確保 AI 模型安全使用