大模型在處理長文本時“內存焦慮”有望成爲歷史。近日,總部位於東京的AI初創公司Sakana AI發佈了兩項突破性技術:Text-to-LoRA (T2L) 和 Doc-to-LoRA (D2L)。這兩項技術通過創新的“超網絡”架構,讓大模型無需重新訓練,就能在不到一秒的時間內“吞下”超長文檔或學會新任務。

長期以來,AI開發者一直面臨兩難選擇:是把長文檔塞進對話框(導致反應變慢且極度耗內存),還是花大價錢對模型進行微調。Sakana AI給出了第三種方案——通過“一次性付費”的預訓練,生成極小的權重插件(LoRA),實現低成本、高效率的模型適配。
Doc-to-LoRA:12GB內存需求降至50MB
這是本次發佈中最令人驚歎的技術。傳統方式處理12.8萬Token(約十萬字)的文檔時,模型需要佔用超過12GB的顯存來記錄信息。而使用D2L技術,模型能將這些信息直接“消化”進不到50MB的插件中。
速度驚人:傳統技術消化文檔需要40到100秒,而D2L僅需不足1秒。
打破上限:它讓模型能夠處理比原生窗口長4倍的文本,且在“大海撈針”測試中保持了近乎完美的準確率。
Text-to-LoRA:用大白話“定製”AI
Text-to-LoRA則讓模型變得更加聽話。用戶只需要用自然語言描述一個任務(比如“幫我解決複雜的數學競賽題”),系統就能自動生成一個專屬的性能增強插件。實驗證明,這種方式生成的適配器在數學和邏輯推理任務中,表現甚至超過了專門針對該任務訓練的獨立模型。
跨界神技:讓文字模型也能“看圖”
研究人員還發現了一個意外驚喜:D2L具備強大的跨模態能力。通過將視覺信息映射到純文字模型的參數中,一個從未見過圖片的文字模型,竟然能以**75.03%**的準確率對圖像進行分類。
Sakana AI的這一系列成果,不僅極大降低了個人和企業定製私有AI模型的門檻,也爲實現更輕量、更智能的通用人工智能(AGI)開闢了新路徑。
論文:https://arxiv.org/pdf/2602.15902
