在當今的人工智能領域,Yann LeCun 提出的 JEPA(聯合嵌入預測架構)正在重新定義大語言模型(LLM)的訓練方式。這位諾貝爾獎得主不是在批評現有的 LLM,而是親自出手進行改造。傳統的 LLM 訓練方法主要依賴於輸入空間中的重構與生成,如預測下一個單詞,這種方法在視覺領域已被證明存在侷限性。

image.png

LeCun 和他的團隊認爲,可以借鑑計算機視覺(CV)領域的先進技術來提升語言模型的表現。JEPA 的核心思想是通過在抽象表徵空間中預測缺失的特徵,以高效地學習世界知識。Meta AI 團隊已經在圖像和視頻處理上成功應用了 JEPA,而現在,他們希望將這一理念擴展到語言模型領域。

爲了填補這個空白,研究人員 Hai Huang、Yann LeCun 和 Randall Balestriero 共同提出了 LLM-JEPA。這一新模型將文本和代碼視爲同一概念的不同視角,首次成功將 JEPA 的自監督學習架構應用於 LLM。通過結合 JEPA 在嵌入空間學習的優勢,LLM-JEPA 不僅保留了 LLM 強大的生成能力,還在性能和魯棒性上實現了雙豐收。

image.png

實驗證明,LLM-JEPA 在多個主流模型(如 Llama3、OpenELM、Gemma2等)和多樣化的數據集(如 GSM8K、Spider 等)上表現出色,顯著超越了傳統 LLM 訓練目標。此外,它在防止過擬合方面顯示出了強大的魯棒性,爲語言模型的未來發展提供了新的方向。

儘管目前的研究主要集中在微調階段,但初步的預訓練結果顯示出巨大的潛力。團隊計劃在未來的工作中進一步探索 LLM-JEPA 在預訓練過程中的應用,期待爲語言模型的性能提升注入新的動力。