AI2が完全オープンソースのネットワークプロキシMolmoWebを発表：視覚だけでウェブを制御可能

エイレン人工知能研究所（AI2）は最近、画期的なオープンソースのネットワークプロキシ MolmoWeb をリリースしました。従来のウェブページの下層コード（DOM）に依存するプロキシとは異なり、MolmoWeb はスクリーンショットを読み取って判断するため、"視覚駆動型" のウェブナビゲーション技術において大きな飛躍を遂げています。

コアテクノロジー：人間のように「ウェブを見る」

MolmoWeb の動作ロジックは非常に直感的です。現在のブラウザウィンドウのスクリーンショットをキャプチャし、ビジュアル分析によって次の操作（クリック、スクロール、ページ移動など）を決定します。その後、実行し、繰り返します。この「見ているものがそのまま」のモデルにより、従来のプロキシよりも信頼性が高く、ウェブのビジュアルレイアウトは下層コードより安定しており、決定プロセスは人間ユーザーにとって完全に透明で説明可能です。

性能の飛躍：小さなモデルが大手を倒す

MolmoWeb のパラメータ数はわずか 4B と 8B ですが、性能面では「小で大を制する」力を見せています:

順位トップ： WebVoyager テストにおいて、8B バージョンのスコアは 78.2％ に達し、オープンソースモデルの中でトップを維持しています。さらに、OpenAI の専有モデル o3（79.3％）にも近づいています。
大きな潜在力： 研究によると、タスクを複数回実行して最適な結果を抽出することで、成功確率はさらに 94.7％ に上昇します。
正確な位置特定： UI 要素の位置特定のベンチマークテストでは、Anthropic の Claude3.7 を超えました。

データの裏付け：史上最大のオープンデータセット

AI2は今回のリリースでモデルの重みだけでなく、名前を MolmoWebMix とした膨大なデータセットも提供しました。このデータセットには以下が含まれます：

人間のボランティアが行った 3万6千回の本物の閲覧タスク。
220万を超える スクリーンショット・質問応答ペア。
GPT-4o によって検証された自動生成データ。実験の結果、これらの合成データがスマートエージェントが「最適なパス」を見つける上で人間の行動よりも優れていることが示されました。

オープンソース精神と将来の課題

現在、MolmoWeb は Hugging Face および GitHub

ソニーがXperia 1 IIIのAIカメラアシスタント機能についての説明:撮影のアドバイスを提供するだけで、直接編集は行わない

ソニー公式がXperia 1XIIIの「AIカメラアシスタント」は画像編集や生成ツールではなく、端末側の視覚認識に基づき、リアルタイムの光、被写界深度、被写体の特徴に応じて撮影最適化の提案を行うと説明。ユーザーが対象を捉えると、システムがインテリジェントに提案を出力し、撮影効果を向上させるもので、画像を改ざんするものではない。....

AI大モデルが基層执法に実装され、ドウバオが警務捜査の速度を加速

湖北省潜江市警察は、工事現場での軽油盗難事件の捜査中、監視カメラも目撃者もいない「ゼロ手がかり」の現場で、ByteDance傘下のAI大規模言語モデル「豆包」を活用。現場から採取した1440mmの重要な車輪間距離データをモデルに入力し、事件の突破口を開いた。これは大規模言語モデルが地域社会のガバナンスやスマート警察活動に浸透する実戦的価値を示している。....

マイクロソフトAIのCEOマスタファ・スレマーンが大胆予測：18か月以内にAIは白熱な仕事全体を自動化する

マイクロソフトAIのCEOは、今後12〜18か月以内にAIが会計、法律、マーケティングなどのホワイトカラー業務で人間と同等の能力に達し、完全自動化が実現すると予測。この見解は世界のテクノロジー界や職場で話題を呼び、「AIによる業務遂行」の時代が近づいていることを示唆している。....

中国のAI動画生成モデルが急成長し、クリエイターからより自由な評価を獲得

中国のAI企業は、ByteDanceやKuaishouなどの企業が膨大なショートビデオデータを活用し、広告、EC、エンターテイメント分野で優位に立つ。中国のツールは世界中のクリエイターに支持される一方、米国のモデルは苦戦している。....

グーグルがGemini Intelligenceをリリース：AI自動化の能力に驚きだが、12GBメモリの要件によりAndroidアライアンスが二分される可能性も

Googleは、アプリ間の自動化、システムレベルのスケジューリング、プライバシー保護を統合した高級AIスイート「Gemini Intelligence」を発表。ユーザーが電源ボタンを長押しするだけで、価格比較、注文、支払い、追跡などの全プロセスをAIが自動実行。Androidエcosystemが「エージェント駆動」の新段階へ移行することを示す。....