記事本文

Sakana AIのTransformer²モデル、LLMの限界を突破し動的推論を実現

公開AI二ュ-ス

時間 :Jan 24, 2025

読む :1分

Sakana AIは、自然に触発されたアルゴリズムを専門とする人工知能研究ラボであり、最近、Transformer²（Transformer-squared）と呼ばれる革新的な適応型言語モデルを発表しました。このモデルは、高価な微調整なしで、推論中に動的に学習し、新しいタスクに適応できるため、大規模言語モデル（LLM）技術の重要な一歩を意味します。

Transformer²の中核となる革新は、独自の2段階の動的重み調整メカニズムにあります。まず、入力されたユーザーリクエストを分析して、タスクのニーズを理解します。次に、数学的手法を用いて、特異値分解（SVD）を利用してモデルの重みとタスクのニーズを調整します。モデルの重みの重要なコンポーネントを選択的に調整することで、Transformer²は時間のかかる再トレーニングなしでリアルタイムでパフォーマンスを最適化できます。これは、パラメータをトレーニング後に静的に維持するか、低ランク適応（LoRA）などの方法を用いて一部のパラメータのみを変更する従来の微調整方法とは対照的です。

Transformer 平方トレーニングと推論（出典:arXiv）

動的調整を実現するために、研究者たちは特異値微調整（SVF）の方法を採用しました。トレーニング時に、SVFはモデルのSVDコンポーネントから、zベクトルと呼ばれるスキル表現のセットを学習します。推論時に、Transformer²はプロンプトを分析して必要なスキルを特定し、対応するzベクトルを設定することで、プロンプトごとに最適化されたレスポンスを実現します。

テストの結果、Transformer²は、数学、コーディング、推論、視覚的な質問応答など、さまざまなタスクにおいてLoRAモデルを上回り、パラメータも少なくなっています。さらに注目すべきは、このモデルには知識転移能力があり、あるモデルで学習したzベクトルを別のモデルに適用できるため、幅広い応用可能性を示しています。

Transformer-squared（表のSVF）と基本モデルおよびLoRAの比較(出典:arXiv)

Sakana AIは、GitHubページでTransformer²コンポーネントのトレーニングコードを公開し、他の研究者や開発者への門戸を開放しました。

企業がLLMの応用を探求し続ける中、推論時のカスタマイズ技術は主流になりつつあります。Transformer²は、GoogleのTitansなどの他の技術とともに、LLMの使用方法を変えつつあり、ユーザーは再トレーニングなしで特定のニーズに合わせてモデルを動的に調整できます。この技術の進歩により、LLMはより幅広い分野でより有用で実用的になります。

Sakana AIの研究者によると、Transformer²は静的な人工知能と生命的な知能の架け橋を表しており、効率的でパーソナライズされた、完全に統合された人工知能ツールの基礎を築いています。

悪意ある開発者によるClaudeの使用によるマルウェアパッケージ:670を越える汚染されたnpmパッケージがオープンソースエコシステムのセキュリティを脅かす

悪意のある開発者がAnthropicのAIモデルClaudeを利用して悪質なコードを作成し、npmリポジトリに670以上の悪意スクリプトを含むパッケージを公開。パッケージ管理エコシステムが汚染され、大規模言語モデルがマルウェア自動開発に悪用されるリスクが浮き彫りとなり、サイバーセキュリティ業界に警鐘を鳴らしている。....

May 28, 2026

178.0k

自分の名前さえ正しく綴れない？グーグルのAI検索が頻繁にトラブルを引き起こし、ユーザーが一斉にアンインストールを始めた

Googleは「AI Overview」検索機能をアップグレードし、従来の検索エンジンを対話型に変えようとしたが、大きな失敗に直面。ユーザーテストで、AIが「poop」の「r」の数を誤ったり、「journalism」を「journadism」と誤記したり、親会社名「Google」のスペルを間違えるなど、基本的な文字処理の欠陥が露呈し、広く疑問視されている。....

May 28, 2026

156.4k

ネットファストフードは精神的な飢えなのか？AI生成記事が人間の創作を全面的に圧倒

AIが生成した英文記事の数が人間を上回り、2記事に1つが機械によるものに。低品質なコンテンツ「Slop」がSNSに溢れ、人間のオリジナル文章が希少となり、思考の境界が静かに崩れつつある。....

May 25, 2026

206.0k

チューリングテストの結果が明らかに：GPT-4.5の勝率は人間を上回り、AIは完璧な嘘をつくことを学んだ

イギリスの数学者チューリングが1950年に提唱したチューリングテストの想定は、76年後、カリフォルニア大学サンディエゴ校の研究チームによって『米国科学アカデミー紀要』に掲載された論文で実証された。認知科学者であるカメロン・ジョーンズ教授とベン・バーゲン教授は、厳密な古典的な三人称チューリングテストを通じて、初めて明確な実証データを提供し、コンピューターサイエンス史における画期的な瞬間を意味している。

May 22, 2026

316.7k

アリババクラウドの「バイレン」が大幅アップグレード：スタック全体を開放し、モデルのスーパーマーケットを構築

アリババクラウドは5月20日のフォーラムで発表し、「バイレン」の大規模モデルプラットフォームがオープンエコシステムを強化し、複数の第三部門のトップクラスのモデルを接続し、テキスト、画像、ビデオおよびマルチモーダル生成などの分野をカバーしています。この動きは、バイレンがアリババ独自の千問モデルの展示台から、業界の主流モデルを含むAIモデルスーパーマーケットへと転換したことを示しています。初回に接続されたモデルのマトリクスは豊富で多様です。

May 21, 2026

269.7k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク