MolmoWeb: An open agent for automating web tasks｜MolmoWeb：ウェブタスクを自動化するオープンエージェント | AIニュース最前線

***4月10日更新：MolmoWeb コードの公開*** [MolmoWeb の完全なコードベース](https://github.com/allenai/MolmoWeb)をリリースしました。これには、トレーニングコード、評価ハッチ（eval harness）、注釈収集ツール、合成データ生成パイプライン、およびデモ用のクライアントサイドコードが含まれています。 トレーニングコードには、MolmoWeb を特定のアプリケーション向けにカスタマイズするために必要なすべてが含まれています。注釈ツールを使用すると、人間のタスクデモンストレーションを記録し、そのデータでモデルのファインチューニングを行うことができます。評価ハッチは、WebVoyager、Online-Mind2Web、WebTailBench、Deepshop などの一般的なナビゲーションベンチマーク上で MolmoWeb などのエージェントを評価するために使用できます。また、これは合成データ生成パイプラインとしても機能します。AxTree やスクリーンショット入力を活用した LLM（大規模言語モデル）および VLM（視覚言語モデル）駆動のエージェントを使用して、ウェブブラウジングデータを生成することができます。 また、MolmoWeb デモのクライアントサイドコードも公開しました。これにより、MolmoWeb にタスクを与えて、リアルタイムでウェブサイト上をナビゲートする様子を確認できるインターフェースがどのように構築されたかを見ることができます。ご自身のウェブエージェント UI の開発における出発点としてご活用ください。 私たちの結果の再現、ウェブエージェントの評価、あるいは新しいドメインでの MolmoWeb のファインチューニングを希望される場合でも、[GitHub 上の MolmoWeb リポジトリにすべてのツールが揃っています](https://github.com/allenai/MolmoWeb)。また、[技術報告書を arXiv にアップロードしました](http://arxiv.org/abs/2604.08516)。 皆様のご成果を楽しみにしています。 *注：以前に Hugging Face からトレーニングデータをダウンロードされた方は、再ダウンロードをお願いします。初期リリース以降、データセットが更新されています。* *Original post follows.* Web agents – systems that can navigate and complete tasks in a browser on your behalf – are one of the most promising applications of multimodal AI. They represent a natural next step for vision-language models, moving from understanding images through captions and visual question answering to actually using that understanding to take action in the world. But the most capable web agents today are proprietary, trained on undisclosed data with undisclosed methods. The open-source community lacks not just the models but the training data, infrastructure, and evaluation tools needed to build competitive alternatives. That gap limits reproducibility, slows research progress, and makes it difficult to understand how these systems actually work. In many ways, web agents today are where LLMs were before [Olmo](https://allenai.org/olmo)—the community needs an open foundation to build on. 本日、私たちが開発した多モーダルモデルファミリー「Molmo 2」(4B パラメータおよび 8B パラメータの 2 つのサイズ) を基盤としたオープンな視覚ウェブエージェント [MolmoWeb](https://huggingface.co/collections/allenai/molmoweb) の発表を行います。これには、その構築に使用された重み (weights)、トレーニングデータ、コード(トレーニング用コードは近日公開予定)、および評価ツールも含まれます。ローカル環境またはクラウドサービス上でのセルフホストデプロイメントを想定して設計されており、MolmoWeb は人間が見るのと同じビジュアルインターフェースを解釈することでブラウザを操作できます。これは知覚と行動を結びつけるものであり、タスク指示とライブウェブページが与えられた場合、モデルはスクリーンショットを通じてページを観察し、次のステップを予測して、クリック、入力、スクロールなどのブラウザアクションを実行します。 他のオープンウェイトのウェブエージェントとは異なり、MolmoWeb は独自開発のビジョンベースのエージェントからの知識蒸留 (distillation) を行わずにトレーニングされました。当社のデータは、テキストのみ対応のアクセシビリティツリーエージェントによって生成された合成軌跡と、人間のデモンストレーションから得られています。 モデルとともに、ウェブエージェントのトレーニング用として大規模で多様なデータセット「MolmoWebMix」、完全なトレーニングおよび評価パイプライン、再現可能なモデルチェックポイント、およびウェブインタラクションデータの収集ツールも公開します。これらを組み合わせることで、データ収集からデプロイメントに至るまで、ウェブエージェントを構築するための完全なレシピが提供されます。これにより、研究者や開発者はスタックのあらゆる部分を調査・改善することが可能になります。 ## 見るから行うへ Molmo モデルは多様な理解のために訓練されており、キャプション作成、視覚的推論、画像内での言語の grounding などにおいて卓越した能力を発揮します。MolmoWeb はこれらの機能をブラウザ制御へと拡張します。 このシステムは単純なループで動作します—画面を見て、何をするかを決め、実行するです。各ステップでは、タスク指示（例：「シアトルから東京への最安値のノンストップ便を探す」）、現在のブラウザビューのスクリーンショット、および直近のアクション履歴が提供されます。モデルはその後、その推論を説明する短い自然言語の思考を生成し、次に実行すべきブラウザアクションを出力します。 サポートされているアクションには、URL へのナビゲーション、画面座標でのクリック、フィールドへのテキスト入力、ページスクロール、ブラウザタブの開閉または切り替え、およびユーザーへのメッセージ送信が含まれます。これらのアクションはブラウザビューポート内で直接動作し、クリック位置は正規化された座標として表され、実行時にピクセルに変換されます。 この設計により、MolmoWeb は人々がウェブサイトと対話するのと同じ方法で動作します。つまり、HTML やアクセシビリティツリーのような構造化されたページ表現に依存するのではなく、視覚的なレイアウトを解釈することで機能します。スクリーンショットから作業を進めることには実用的な利点があります。1 つのスクリーンショットは、数万トークンを消費しうる直列化されたページ表現と比較してはるかにコンパクトです。また、視覚インターフェースは、背後にあるページ構造が変更されても安定しており、モデルがユーザーが見ているのと同じインターフェースについて推論するため、その動作を解釈したりデバッグしたりすることが容易になります。 実際には、これにより MolmoWeb は、特定のウェブサイトやサービスに専用の API を必要とすることなく、多様な日常的なウェブタスクを実行できます。具体的には、複数ページからなるウェブサイトのナビゲーション、フォームの入力、製品リストの検索およびフィルタリング、または対象となる Web ページからの情報取得などが挙げられます。モデルは指示を一連のアクションに分解し、ページに表示される内容に応答しながら、過去のステップに関する文脈を維持します。 典型的な対話では、ウェブサイトに移動し、検索フィールドを特定し、クエリを入力し、結果を解釈し、リンクをクリックして関連するページを開き、回答を抽出または提示するという一連の動作が含まれます。この間、エージェントの内部推論とアクションの追跡は常に可視化されており、ユーザーがプロセスを検証したり、必要に応じて介入したりすることができます。 ## ウェブエージェントのトレーニング用データセット ウェブエージェントを構築する際の主要な課題の一つは、公開されているトレーニングデータの不足です。既存の多くのシステムは非公開のトレーニングデータに依存しています。これを解決するため、私たちは MolmoWebMix を作成しました。これは合成生成データと人間による注釈付き例を組み合わせた大規模なオープンデータセットであり、特に多モーダルウェブエージェントのトレーニング用に設計されています。 MolmoWebMix は、いくつかの補完的なコンポーネントで構成されています。 **人間のデモ。** クラウドワーカーがカスタム Chrome 拡張機能を使用してさまざまなブラウジングタスクを実行し、アクションとスクリーンショットを記録することで、検索、ナビゲーション、フォーム入力などのタスクにわたる現実的な行動を捉えました。その結果得られたデータセットには、36K の人間によるタジェクトリーが含まれており、これは過去に公開された中で最も大規模な人間のウェブタスク実行データセットです。これには 1.1K を超えるウェブサイト全体で 623K 以上の個別サブタスクデモがまたがっています。 **合成トジェクトリー。** 人間による注釈のみでは提供できない規模を超えて拡張するため、ウェブページのアクセシビリティツリー上で動作する自動化エージェントを使用して追加のトジェクトリーを生成しました。これには、タスク成功のためにフィルタリングされた単一エージェントの実行、タスクをサブゴールに分解して完了を検証するマルチエージェントパイプライン、そして数百のウェブサイト全体でリンク構造を体系的に探索することで構築された決定論的なナビゲーションパスが含まれます。これらの方法を組み合わせることで、さらなる手作業を必要とせずに、大規模かつ多様なブラウジングトジェクトリーセットを生成できます。 **GUI 知覚データ。**最後に、MolmoWebMix にはウェブページのスクリーンショットを解釈するようモデルに教えるトレーニングデータが含まれています。これには、UI 要素が画面のどこに表示されているかを特定する要素グラウンディングタスクと、ページコンテンツを読み取り推論する必要があるスクリーンショット質問応答タスクが含まれます。スクリーンショット QA の部分だけでも、約 400 のウェブサイトから抽出された 220 万組以上の質問回答ペアが含まれています。 各データソースの詳細な内訳（収集方法やフィルタリング基準を含む）については、当社の技術レポートをご覧ください。 ## ベンチマーク MolmoWeb は、ライブウェブサイトにインタラクションする必要がある 4 つの広く使用されている Web エージェントベンチマークで評価されます。それらは WebVoyager、Online-Mind2Web、DeepShop、および WebTailBench です。WebVoyager は arXiv や GitHub などの 15 の人気ウェブサイト全体にわたる一般的なウェブナビゲーションをテストします。Online-Mind2Web は 136 のウェブサイトにまたがる多様な範囲のマルチステップタスクをカバーしています。DeepShop は、Amazon における製品比較やリストのフィルタリングなど、複雑なショッピング関連クエリに焦点を当てています。WebTailBench は、エージェントの信頼性をストレステストするために設計された厳選されたタセット全体での指示従順性を評価します。 各ベンチマークにおいて、VLM（Vision Language Model）判事がエージェントがタスクを正常に完了したかどうかを評価します。 コンパクトなサイズにもかかわらず、4B モデルと 8B モデルの両方とも、オープンウェイト型ウェブエージェントの中で最先端の結果を達成しています。MolmoWeb (8B) は WebVoyager で 78.2%、DeepShop で 42.3%、WebTailBench で 49.5% のスコアを獲得し、Fara-7B を含む主要なオープンウェイトモデルをすべてのベンチマークで上回っています。DeepShop では、より小さな 4B モデルでもステップ予算の制約下で Fara-7B よりも優れたパフォーマンスを発揮し、さらに Fara が 100 ステップ制限される中で MolmoWeb はわずか 30 ステップという厳しい条件下でも勝利を収めています。また、MolmoWeb は、注釈付きスクリーンショットや構造化されたページデータに依存する、GPT-4o などより大規模なプロプライエタリモデル（独自開発モデル）を基盤としたエージェントよりも優れた結果を示しています。これは、これらの大規模モデルがはるかに豊かな入力表現と桁違いに多いパラメータ数を有していることを考えると、非常に印象的な成果です。 タスクの完了だけでなく、MolmoWeb は画面内の UI 要素を正確に特定する能力であるビジュアルグラウンディング（visual grounding）においても強力なパフォーマンスを示しています。ScreenSpot および ScreenSpot v2 ベンチマークでは、当社のデータで訓練された専用 8B グラウンディングモデルが、Fara-7B などのオープンウェイトモデルや、Claude 3.7 や OpenAI CUA などより大規模なプロプライエタリシステムを両方とも上回っています。さらに、グラウンディングの専門家としてではなく一般的なウェブエージェントとして訓練された MolmoWeb (4B) でさえも、これらのベンチマークで競争力のあるスコアを記録しつつ、完全なタスク完了も処理しています。 また、複数の独立したエージェントロールアウトを実行し、その中から最良の結果を選択することで、パフォーマンスが大幅に向上することも確認されました。このテスト時スケーリングアプローチにより、8B モデルは WebVoyager で pass@4 が 94.7%、Online-Mind2Web では 60.5% を達成しました（単一ロールアウトではそれぞれ 78.2% と 35.3%）。これは、推論時に追加の計算リソースを投入することで信頼性を大幅に向上できることを示しています。 ## 制限事項と安全性に関する考慮点 MolmoWeb にはいくつかの既知の制限があります。純粋なビジョンベースモデルであるため、スクリーンショットからのテキスト読み取りにおいて誤りを犯す可能性があります。また、ページが完全に読み込まれる前にスクロールするなど、不適切な行動によって軌道から外れ、関連するコンテンツを見逃すこともあります。指示がより曖昧になったり、多くの制約を含んだりするとパフォーマンスは低下し、特定のページ要素内でのスクロールやドラッグ＆ドロップといった特定のアクションは依然として困難です。さらに、安全性とプライバシーの懸念により、ログインや金融取引を必要とするタスクについてはトレーニングされていません。これらはすべて改善が期待される活発な分野です。 安全性の観点から、MolmoWeb は透明性を中核目標として設計されており、すべてのコンポーネントは検査と監査のために公開されています。[ホスト版デモ](https://molmoweb.allen.ai/) には追加の安全対策が組み込まれており、ホワイトリストに登録された特定のウェブサイトのみに制限され、[Google Cloud Natural Language API](https://docs.cloud.google.com/natural-language/docs/moderating-text) を使用して不安全なクエリをフラグ付けして拒否し、入力フィールドタイプを入力前に確認し、パスワードやクレジットカード関連のフィールド上でのアクションをブロックします。これらの制限はデモ環境に固有のものであり、モデル自体に組み込まれているわけではありません。分野が成熟するにつれて、研究コミュニティには追加の安全メカニズムの開発と実験を促すものです。 ## これが実現すること MolmoWeb は [Hugging Face](https://huggingface.co/collections/allenai/molmoweb) と [GitHub](https://github.com/allenai/molmoweb) を通じて利用可能であり、すべての[トレーニングデータ](https://huggingface.co/collections/allenai/molmoweb-data)、評価ツール、およびローカルでモデルを実行するための推論ライブラリも含まれています。開発者は MolmoWeb のセルフホスティングを開始し、日常のブラウザタスクを自動化できます。例えば、固定スケジュールでルーチンタスクを実行したり、異なるパラメータを使用してテンプレート化されたクエリを実行してウェブサイトや製品全体から情報を収集したり、各ステップが直前のブラウザ状態を引き継ぐ複雑なワークフローに単純なクエリを連鎖させたりすることが可能です。 トレーニングパイプライン全体がオープンであるため、開発者は独自のデータでモデルをファインチューニングし、特定のユースケースに最適化することも可能です。一方、研究者は多モーダルウェブエージェントの科学を推進するために、モデルの改善やトレーニングデータの拡張、新しいトレーニング手法の開発など、あらゆるコンポーネントを検証・構築することができます。 オープンなウェブ上で能力のあるエージェントを展開することは、重要な未解決の課題を提起します。エージェントは、自身が相互作用するウェブサイトの利用規約をどのように尊重すべきでしょうか？違法または不適切なコンテンツへのアクセスを防ぐにはどうすればよいのでしょうか？安全な金融取引を保証し、ユーザーの個人情報を保護するにはどうすればよいのでしょうか？不可逆的な行動を防ぐにはどうすればよいのでしょうか？システム全体をオープンにすることで、より多くの人々がこれらの問いに答え、ウェブ上で信頼できる自動化に必要な安全性の実践を開発するプロセスに参加できるようになります。 ウェブは世界最大のソフトウェアプラットフォームです。それを確実にナビゲートできるエージェントは、情報やデジタルサービスへのアクセスを劇的に拡大させる可能性があります。それ以上に重要なのは、MolmoWeb が多モーダルモデルを画像の受動的な理解から、見たものに基づいて行動するシステムへと押し上げるという、エキサイティングな科学的方向性における一歩を表していることです。 最新の Ai2 ニュースに関する月次更新を受け取るには購読してください。

MolmoWeb：ウェブタスクを自動化するオープンエージェント

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト