生物配列モデリングの分野では、深層学習技術の進歩が目覚ましいものの、高額な計算コストと大規模データセットへの依存が多くの研究者を悩ませてきました。最近、マサチューセッツ工科大学(MIT)、ハーバード大学、カーネギーメロン大学の研究チームは、Lyraという新しい生物配列モデリング手法を発表しました。この手法は、パラメータ数が従来モデルのわずか12万分の1に削減されただけでなく、2台のGPUを用いてわずか2時間でトレーニングできるため、モデルの効率性が大幅に向上しています。

image.png

Lyraのデザインは、生物学における上位効果(配列内の変異間の相互作用)に着想を得ており、二次構造を用いて生物配列とその機能の関係を効果的に理解します。この新しいモデルは、タンパク質の適合性予測、RNA機能解析、CRISPR設計など、100以上の生物学的タスクで優れた性能を示し、重要なアプリケーションの一部では、現在の最先端技術(SOTA)に匹敵する成果を上げています。

image.png

image.png

従来の畳み込みニューラルネットワーク(CNN)やTransformerモデルと比較して、Lyraの推論速度は64.18倍向上し、パラメータ数も大幅に削減されました。これは、革新的なハイブリッドモデル構造によるものです。Lyraは、状態空間モデル(SSM)と射影ゲート付き畳み込み(PGC)を組み合わせて、生物配列における局所的および大域的な依存関係を捉えています。SSMは高速フーリエ変換(FFT)を用いて大域的な関係を効率的にモデリングし、PGCは局所的な特徴の抽出に重点を置いています。これら2つの組み合わせにより、Lyraは計算効率と解釈可能性のバランスをうまく取っています。

Lyraの高効率性により、基礎生物学研究の進歩が促進されるだけでなく、治療薬開発、病原体モニタリング、バイオマニュファクチャリングなどの実際的な応用にも重要な役割を果たす可能性があります。研究チームは、Lyraを通じて、より多くの研究者が資源が限られた状況でも複雑な生物配列モデリングを行い、生物科学の探求を加速することを期待しています。