OpenAIは木曜日に、生物学の研究シーンに特化して深く訓練された垂直領域の大規模言語モデルであるGPT-Rosalindを正式にリリースしました。グーグルやマイクロソフトなどの大手企業が注力している汎用科学モデルとは異なり、OpenAIは今回はより焦点を絞った道を選択しました—生物学研究の核心的な課題に直面しています。
生命科学製品責任者の王昀昀は発表会でこのモデルの使命を明確にし、研究者が長年目の前に立っている二つの高い壁を突破する手助けをすることが目的だと述べました。それは数十年にわたるゲノムシーケンシングによって積み重なった膨大なデータと、高度に細分化された専門用語の壁です。現実には、特定の遺伝子に注力する遺伝学者が神経生物学に関する大量の文献に直面したとき、どう対処すべきかわからなくなることがあります。情報過多は現在、生物学の研究における一般的な困難となっています。

これに対応するために、OpenAIは汎用的大規模モデルの基盤上に、50種類の一般的な生物学ワークフローおよび主要な公開データベースへのアクセス機能を統合し、モデルが遺伝子型と表現型を結びつけ、タンパク質構造と機能を推定し、潜在的な薬剤ターゲットを抽出できるようにしました。同時に、チームはモデルの「性格」を特別に調整しました—批判的思考を意図的に強化し、ユーザーにただ従うことを避け、価値の低いターゲットに対しては直接否定するようにしています。
もちろん、挑戦も無視できません。幻覚問題は今も解決されていません。モデルは見た目には理にかなっているが検証できない内容を生成することがあり、厳格な科学研究においてはリスクがあります。OpenAI自身もまだ完全な解決策を持っていないことを認め、利用者が慎重であることを警告しています。生物安全上の懸念も無視できません。もし悪意を持ってウイルスの感染性を強化するために使われると、結果は想像を絶します。そのため、OpenAIはアクセス権を厳しく管理しており、現在は米国の実体のみが申請を可能としています。機能が制限されている生命科学用のアドオンは、より広範なユーザーに向けて段階的に開放される予定です。
共同創設者であるGreg Brockmanは、GPT-RosalindをOpenAIが生命科学分野での前線的な探求として位置づけ、科学の進歩を加速し、人類の福祉を改善するという目標に向かって重要な一歩であると述べました。
