大規模モデルが長文を処理する際の「メモリの不安」は今や過去のものとなる見込みです。東京を拠点とするAIスピンオフ企業であるSakana AIは、2つの画期的な技術:Text-to-LoRA(T2L)とDoc-to-LoRA(D2L)を発表しました。これらの技術は、イノベーションな「スーパーネットワーク」アーキテクチャを用いて、大規模モデルを再トレーニングすることなく、1秒未満で超長文書や新しいタスクを学ぶことが可能です。

長い間、AI開発者たちは二択に追われていました。つまり、長文をダイアログボックスに詰め込む(反応が遅くなり、メモリを大量に消費する)か、モデルを微調整するために高いコストを払うかのどちらかでした。Sakana AIは第三の選択肢を提示しました。それは、「一度限りの支払い」による事前学習を通じて、非常に小さな重みプラグイン(LoRA)を生成し、低コストかつ高効率なモデル適応を実現するものです。
Doc-to-LoRA:12GBのメモリ要件を50MBに低下
今回の発表の中で最も注目すべき技術です。従来の方法で12.8万トークン(約十万文字)のドキュメントを処理する場合、モデルは12GB以上のVRAMを使用して情報を記録していました。しかしD2L技術を使えば、モデルはそれらの情報を50MB未満のプラグインに直接「消化」できます。
驚くほど速い: 従来の技術ではドキュメントを消化するのに40〜100秒かかりますが、D2Lは1秒未満
上限を打ち破る: この技術により、モデルは元の窓口よりも4倍長いテキストを処理でき、また「針の山から針を探す」テストにおいてほぼ完璧な正確性を維持します。
Text-to-LoRA:日常言語でAIをカスタマイズ
Text-to-LoRAは、モデルをより従順にします。ユーザーはただ自然言語でタスクを説明すれば(例えば「複雑な数学コンテストの問題を解決してください」)、システムは専用のパフォーマンス向上プラグインを自動的に生成します。実験によると、この方法で生成されたアダプターは数学や論理的推論のタスクにおいて、特定のタスクに特化して訓練された独立したモデルよりも優れた性能を示しています。
画期的な技術:テキストモデルでも「画像を見る」ことができる
研究者は予期せぬ驚きも見出しました。D2Lには強力なマルチモーダル能力があります。視覚情報が純粋なテキストモデルのパラメータにマッピングされ、画像を見たことのないテキストモデルが、**75.03%**の正確さで画像を分類できるようになったのです。
Sakana AIのこれらの成果は、個人や企業にとってプライベートAIモデルをカスタマイズするための障壁を大幅に下げており、さらに軽量で知能が高い汎用人工知能(AGI)の実現に向けて新たな道を開きました。
論文:https://arxiv.org/pdf/2602.15902
