最近、有名なオープンソースブラウザ自動化プロジェクトであるBrowserUseは、自社開発の巨大言語モデル「BU-30B-A3B-Preview」の正式リリースを発表しました。このモデルが公開された瞬間から広く注目を集め、『ウェブエージェント(Web Agent)分野の新しい基準』と称され、極めてコストパフォーマンスが良く、リアルタイムでの速度により、AIブラウザ操作の障壁を完全に変革しました。

モデル構造:MoE設計により「脳が強く、体が軽い」

BU-30B-A3B-Previewは、混合エキスパート(MoE)構造を採用しており、合計パラメータ数は30B(300億)ですが、実際の推論時には3B(30億)のパラメータのみがアクティブになります。これにより、最高レベルの知能を維持しつつ、リソース消費が大幅に削減され、単一のコンシューマー級GPUでスムーズに動作します。

このモデルはアリババクラウドの通義千問Qwen3-VL-30B-A3B-Instructをもとに深く微調整されており、ブラウザ自動化のシナリオに最適化されています。マルチモーダル入力(視覚+テキスト)をサポートし、文脈長さが32Kトークンに達し、複雑な長文ウェブページの処理にも簡単に対応できます。

image.png

コア能力:優れたDOM理解と視覚的推論

BU-30B-A3B-Previewはブラウザ操作タスクにおいて優れた性能を発揮し、正確な要素の位置指定、クリック、スクロール、フォーム入力などのすべてのウェブインタラクション機能を備えています。特に優れたDOM(ドキュメントオブジェクトモデル)の理解力と視覚的推論力により、AIエージェントが人間のようにページレイアウトやスクリーンショットを「理解」し、高信頼性のある自動化を実現しています。

公式はこのモデルがWeb Agentの応用場面に特に適していると強調しており、例えば自動テスト、データ収集、RPAプロセスなどに適しています。すでに内部のベンチマークテストで業界の先駆けの水準に達しています。

性能の特徴:速度とコストの両方で圧倒的な優位

公式が公開した比較データによると、BU-30B-A3B-Previewはタスク完了速度と経済性において主流の商用モデルを大きく上回っています:

- 平均的に1つの操作にわずか1.2秒しかかかりません。全体的なタスク完了時間が大幅に前進しています。

- コスト効果が驚異的です:1ドルの計算リソースで約200のブラウザタスクを信頼して完了でき、一部の競合モデルの数十倍です。

モデルのサイズが相対的に小さく(単一GPUで導入しやすい)ため、開発者は簡単にローカルでダウンロードしてテストでき、高いクラウド費用を支払う必要はありません。

オープンソースの意味:Web Agentエコシステムの発展を加速

BU-30B-A3B-Previewは完全にオープンソースになっており、モデルの重みはHugging Faceプラットフォームにアップロードされており、どの開発者も無料で取得してBrowserUseのオープンソースライブラリに統合することができます。これはブラウザ自動化分野が「効率的なオープンソース時代」に入ったことを示しており、より多くのイノベーションアプリケーションの実装が期待されます。

AIbaseコメント:BU-30B-A3B-Previewの登場により、伝統的な大規模モデルがブラウザタスクで「高価で遅い」という課題を完璧に解決しました。大量のウェブ自動化が必要な企業や開発者にとって、これは非常にコストパフォーマンスの高い選択肢です。今後、コミュニティがさらに最適化するにつれて、このモデルはWeb Agent分野の標準的な構成となることが予想されます。興味のある読者はすぐにHugging Faceからダウンロードして体験してください。

URL:https://huggingface.co/browser-use/bu-30b-a3b-preview