エイレン人工知能研究所(AI2)は最近、画期的なオープンソースのネットワークプロキシ MolmoWeb をリリースしました。従来のウェブページの下層コード(DOM)に依存するプロキシとは異なり、MolmoWeb はスクリーンショットを読み取って判断するため、"視覚駆動型" のウェブナビゲーション技術において大きな飛躍を遂げています。

コアテクノロジー:人間のように「ウェブを見る」

MolmoWeb の動作ロジックは非常に直感的です。現在のブラウザウィンドウのスクリーンショットをキャプチャし、ビジュアル分析によって次の操作(クリック、スクロール、ページ移動など)を決定します。その後、実行し、繰り返します。この「見ているものがそのまま」のモデルにより、従来のプロキシよりも信頼性が高く、ウェブのビジュアルレイアウトは下層コードより安定しており、決定プロセスは人間ユーザーにとって完全に透明で説明可能です。

QQ20260326-092046.jpg

性能の飛躍:小さなモデルが大手を倒す

MolmoWeb のパラメータ数はわずか 4B と 8B ですが、性能面では「小で大を制する」力を見せています:

  • 順位トップ: WebVoyager テストにおいて、8B バージョンのスコアは 78.2% に達し、オープンソースモデルの中でトップを維持しています。さらに、OpenAI の専有モデル o3(79.3%)にも近づいています。

  • 大きな潜在力: 研究によると、タスクを複数回実行して最適な結果を抽出することで、成功確率はさらに 94.7% に上昇します。

  • 正確な位置特定: UI 要素の位置特定のベンチマークテストでは、Anthropic の Claude3.7 を超えました。

データの裏付け:史上最大のオープンデータセット

AI2は今回のリリースでモデルの重みだけでなく、名前を MolmoWebMix とした膨大なデータセットも提供しました。このデータセットには以下が含まれます:

  • 人間のボランティアが行った 3万6千回の本物の閲覧タスク

  • 220万を超える スクリーンショット・質問応答ペア

  • GPT-4o によって検証された自動生成データ。実験の結果、これらの合成データがスマートエージェントが「最適なパス」を見つける上で人間の行動よりも優れていることが示されました。

QQ20260326-092350.jpg

オープンソース精神と将来の課題

現在、MolmoWeb は Hugging Face および GitHub