グーグルは最近、医療AIモデル「MedGemma1.5」をオープンソース化しました。最も重要な突破点は、従来の2D画像の制限を越え、高次元の医療データを処理できる能力を備えたことです。このモデルは、複数の重要な医療シナリオで顕著な進歩を遂げています。
機能面では、MedGemma1.5のアップグレードは非常に包括的です。CTやMRIの3Dスキャンデータ分析をネイティブにサポートし、数十枚のスライスを含む3D画像を直接処理できます。また、病理学の全視野デジタルスライド分析にも対応し、微視的な病変の兆候を探せます。胸部X線分析においては、境界ボックスを使って解剖構造と病変の位置を正確にラベリングすることができ、曖昧な結論ではなく具体的な情報を提供します。さらに、複数のタイムポイントでの比較分析機能もあり、病状が改善、安定、悪化しているかを追跡できます。また、PDF形式の電子カルテや検査報告書の理解能力も大幅に向上し、キーデータを正確に抽出できます。

実績も目覚ましいものです。前バージョンであるMedGemma14Bと比べて、1.5バージョンでは3D MRIの病態分類精度が11%上昇し、全視野病理画像のマクロF1スコアが47%上昇し、胸部X線の解剖定位の交差和(IoU)が35%増加し、電子カルテの質問応答精度が22%急騰しています。注目すべきは、これらの向上が40億パラメータのまま維持されていることで、計算効率が非常に高いという点です。

技術的には、チームは放射線学、皮膚科、病理学、および合成された電子健康記録などの大量の医学関連のテキストと画像のペアデータをモデルに注入し、3D CTスキャンを最大85枚の連続画像に分割する前処理方法を設計しました。トレーニングの後半では、専門家モデルを導入して知識蒸留を行い、専門的な経験をモデルに直接「伝授」しました。
ただし明確にしておくべきことは、MedGemma1.5は即座に使用可能な臨床意思決定ツールではないということです。グーグルはこれを開発者によるさらなるファインチューニング用の基本リソースとして位置づけており、実際に臨床現場に適用するには特定のシナリオに基づいた特別なトレーニングが必要です。また、モデルが「医療全能型」と進化する過程で、一部の古い小規模な視覚質問ベンチマークで極めてわずかな後退が見られるようになったのも事実です。これは能力の全面化に伴う避けられないコストです。
論文のURL:https://www.alphaxiv.org/abs/2604.05081
