エイレン人工知能研究所(AI2)は最近、画期的なオープンソースのネットワークプロキシ
コアテクノロジー:人間のように「ウェブを見る」
MolmoWeb の動作ロジックは非常に直感的です。現在のブラウザウィンドウのスクリーンショットをキャプチャし、ビジュアル分析によって次の操作(クリック、スクロール、ページ移動など)を決定します。その後、実行し、繰り返します。この「見ているものがそのまま」のモデルにより、従来のプロキシよりも信頼性が高く、ウェブのビジュアルレイアウトは下層コードより安定しており、決定プロセスは人間ユーザーにとって完全に透明で説明可能です。

性能の飛躍:小さなモデルが大手を倒す
MolmoWeb のパラメータ数はわずか 4B と 8B ですが、性能面では「小で大を制する」力を見せています:
順位トップ: WebVoyager テストにおいて、8B バージョンのスコアは 78.2% に達し、オープンソースモデルの中でトップを維持しています。さらに、OpenAI の専有モデル o3(79.3%)にも近づいています。
大きな潜在力: 研究によると、タスクを複数回実行して最適な結果を抽出することで、成功確率はさらに 94.7% に上昇します。
正確な位置特定: UI 要素の位置特定のベンチマークテストでは、Anthropic の Claude3.7 を超えました。
データの裏付け:史上最大のオープンデータセット
AI2は今回のリリースでモデルの重みだけでなく、名前を MolmoWebMix とした膨大なデータセットも提供しました。このデータセットには以下が含まれます:
人間のボランティアが行った 3万6千回の本物の閲覧タスク。
220万を超える スクリーンショット・質問応答ペア。
GPT-4o によって検証された自動生成データ。実験の結果、これらの合成データがスマートエージェントが「最適なパス」を見つける上で人間の行動よりも優れていることが示されました。

オープンソース精神と将来の課題
現在、MolmoWeb は
