MolmoWeb:ウェブタスクを自動化するオープンエージェント
Allen AIは、Webナビゲーションエージェント「MolmoWeb」の完全なコードベース、評価ツール、合成データ生成パイプラインを含むオープンソースリポジトリを公開し、プロプライエタリなWebエージェントへの依存を打破する基盤を提供した。
キーポイント
完全なオープンソースリリース
トレーニングコード、評価ハーネス、注釈収集ツール、合成データ生成パイプライン、デモ用クライアントコードなど、MolmoWebの全リソースをGitHubで公開した。
カスタマイズと評価の容易化
特定の用途へのモデル調整や、WebVoyagerなどの人気ベンチマークを用いたエージェント評価を可能にするインフラを提供し、研究の再現性と進歩を促進する。
プロプライエタリモデルへの対抗軸
現在のカパビリティを持つWebエージェントが閉鎖的なプロプライエタリモデルに偏っている現状に対し、透明性のあるオープンソース基盤を提供することで、コミュニティのビルドを支援する。
影響分析・編集コメントを表示
影響分析
このリリースは、Webエージェント分野における「ブラックボックス化」への重要な反旗であり、オープンソースコミュニティが独自のカスタムエージェントを構築・評価するための標準的な基盤を提供する。これにより、特定のベンダーへの依存を減らし、透明性のあるAI開発とイノベーションが加速する可能性がある。
編集コメント
プロプライエタリなWebエージェントの台頭に対し、Allen AIが「Olmo」でLLM分野に貢献したのと同様の戦略をWebエージェント領域で展開しており、業界標準形成への影響力が大きい。
*4月10日更新:MolmoWeb コードの公開*
MolmoWeb の完全なコードベースをリリースしました。これには、トレーニングコード、評価ハッチ(eval harness)、注釈収集ツール、合成データ生成パイプライン、およびデモ用のクライアントサイドコードが含まれています。
トレーニングコードには、MolmoWeb を特定のアプリケーション向けにカスタマイズするために必要なすべてが含まれています。注釈ツールを使用すると、人間のタスクデモンストレーションを記録し、そのデータでモデルのファインチューニングを行うことができます。評価ハッチは、WebVoyager、Online-Mind2Web、WebTailBench、Deepshop などの一般的なナビゲーションベンチマーク上で MolmoWeb などのエージェントを評価するために使用できます。また、これは合成データ生成パイプラインとしても機能します。AxTree やスクリーンショット入力を活用した LLM(大規模言語モデル)および VLM(視覚言語モデル)駆動のエージェントを使用して、ウェブブラウジングデータを生成することができます。
また、MolmoWeb デモのクライアントサイドコードも公開しました。これにより、MolmoWeb にタスクを与えて、リアルタイムでウェブサイト上をナビゲートする様子を確認できるインターフェースがどのように構築されたかを見ることができます。ご自身のウェブエージェント UI の開発における出発点としてご活用ください。
私たちの結果の再現、ウェブエージェントの評価、あるいは新しいドメインでの MolmoWeb のファインチューニングを希望される場合でも、GitHub 上の MolmoWeb リポジトリにすべてのツールが揃っています。また、技術報告書を arXiv にアップロードしました。
皆様のご成果を楽しみにしています。
*注:以前に Hugging Face からトレーニングデータをダウンロードされた方は、再ダウンロードをお願いします。初期リリース以降、データセットが更新されています。*
*Original post follows.*
Web agents – systems that can navigate and complete tasks in a browser on your behalf – are one of the most promising applications of multimodal AI. They represent a natural next step for vision-language models, moving from understanding images through captions and visual question answering to actually using that understanding to take action in the world. But the most capable web agents today are proprietary, trained on undisclosed data with undisclosed methods. The open-source community lacks not just the models but the training data, infrastructure, and evaluation tools needed to build competitive alternatives. That gap limits reproducibility, slows research progress, and makes it difficult to understand how these systems actually work. In many ways, web agents today are where LLMs were before Olmo—the community needs an open foundation to build on.
本日、私たちが開発した多モーダルモデルファミリー「Molmo 2」(4B パラメータおよび 8B パラメータの 2 つのサイズ) を基盤としたオープンな視覚ウェブエージェント MolmoWeb の発表を行います。これには、その構築に使用された重み (weights)、トレーニングデータ、コード(トレーニング用コードは近日公開予定)、および評価ツールも含まれます。ローカル環境またはクラウドサービス上でのセルフホストデプロイメントを想定して設計されており、MolmoWeb は人間が見るのと同じビジュアルインターフェースを解釈することでブラウザを操作できます。これは知覚と行動を結びつけるものであり、タスク指示とライブウェブページが与えられた場合、モデルはスクリーンショットを通じてページを観察し、次のステップを予測して、クリック、入力、スクロールなどのブラウザアクションを実行します。
他のオープンウェイトのウェブエージェントとは異なり、MolmoWeb は独自開発のビジョンベースのエージェントからの知識蒸留 (distillation) を行わずにトレーニングされました。当社のデータは、テキストのみ対応のアクセシビリティツリーエージェントによって生成された合成軌跡と、人間のデモンストレーションから得られています。
モデルとともに、ウェブエージェントのトレーニング用として大規模で多様なデータセット「MolmoWebMix」、完全なトレーニングおよび評価パイプライン、再現可能なモデルチェックポイント、およびウェブインタラクションデータの収集ツールも公開します。これらを組み合わせることで、データ収集からデプロイメントに至るまで、ウェブエージェントを構築するための完全なレシピが提供されます。これにより、研究者や開発者はスタックのあらゆる部分を調査・改善することが可能になります。
見るから行うへ
Molmo モデルは多様な理解のために訓練されており、キャプション作成、視覚的推論、画像内での言語の grounding などにおいて卓越した能力を発揮します。MolmoWeb はこれらの機能をブラウザ制御へと拡張します。
このシステムは単純なループで動作します—画面を見て、何をするかを決め、実行するです。各ステップでは、タスク指示(例:「シアトルから東京への最安値のノンストップ便を探す」)、現在のブラウザビューのスクリーンショット、および直近のアクション履歴が提供されます。モデルはその後、その推論を説明する短い自然言語の思考を生成し、次に実行すべきブラウザアクションを出力します。
サポートされているアクションには、URL へのナビゲーション、画面座標でのクリック、フィールドへのテキスト入力、ページスクロール、ブラウザタブの開閉または切り替え、およびユーザーへのメッセージ送信が含まれます。これらのアクションはブラウザビューポート内で直接動作し、クリック位置は正規化された座標として表され、実行時にピクセルに変換されます。
この設計により、MolmoWeb は人々がウェブサイトと対話するのと同じ方法で動作します。つまり、HTML やアクセシビリティツリーのような構造化されたページ表現に依存するのではなく、視覚的なレイアウトを解釈することで機能します。スクリーンショットから作業を進めることには実用的な利点があります。1 つのスクリーンショットは、数万トークンを消費しうる直列化されたページ表現と比較してはるかにコンパクトです。また、視覚インターフェースは、背後にあるページ構造が変更されても安定しており、モデルがユーザーが見ているのと同じインターフェースについて推論するため、その動作を解釈したりデバッグしたりすることが容易になります。
実際には、これにより MolmoWeb は、特定のウェブサイトやサービスに専用の API を必要とすることなく、多様な日常的なウェブタスクを実行できます。具体的には、複数ページからなるウェブサイトのナビゲーション、フォームの入力、製品リストの検索およびフィルタリング、または対象となる Web ページからの情報取得などが挙げられます。モデルは指示を一連のアクションに分解し、ページに表示される内容に応答しながら、過去のステップに関する文脈を維持します。
典型的な対話では、ウェブサイトに移動し、検索フィールドを特定し、クエリを入力し、結果を解釈し、リンクをクリックして関連するページを開き、回答を抽出または提示するという一連の動作が含まれます。この間、エージェントの内部推論とアクションの追跡は常に可視化されており、ユーザーがプロセスを検証したり、必要に応じて介入したりすることができます。
ウェブエージェントのトレーニング用データセット
ウェブエージェントを構築する際の主要な課題の一つは、公開されているトレーニングデータの不足です。既存の多くのシステムは非公開のトレーニングデータに依存しています。これを解決するため、私たちは MolmoWebMix を作成しました。これは合成生成データと人間による注釈付き例を組み合わせた大規模なオープンデータセットであり、特に多モーダルウェブエージェントのトレーニング用に設計されています。
MolmoWebMix は、いくつかの補完的なコンポーネントで構成されています。
人間のデモ。 クラウドワーカーがカスタム Chrome 拡張機能を使用してさまざまなブラウジングタスクを実行し、アクションとスクリーンショットを記録することで、検索、ナビゲーション、フォーム入力などのタスクにわたる現実的な行動を捉えました。その結果得られたデータセットには、36K の人間によるタジェクトリーが含まれており、これは過去に公開された中で最も大規模な人間のウェブタスク実行データセットです。これには 1.1K を超えるウェブサイト全体で 623K 以上の個別サブタスクデモがまたがっています。
合成トジェクトリー。 人間による注釈のみでは提供できない規模を超えて拡張するため、ウェブページのアクセシビリティツリー上で動作する自動化エージェントを使用して追加のトジェクトリーを生成しました。これには、タスク成功のためにフィルタリングされた単一エージェントの実行、タスクをサブゴールに分解して完了を検証するマルチエージェントパイプライン、そして数百のウェブサイト全体でリンク構造を体系的に探索することで構築された決定論的なナビゲーションパスが含まれます。これらの方法を組み合わせることで、さらなる手作業を必要とせずに、大規模かつ多様なブラウジングトジェクトリーセットを生成できます。
GUI 知覚データ。最後に、MolmoWebMix にはウェブページのスクリーンショットを解釈するようモデルに教えるトレーニングデータが含まれています。これには、UI 要素が画面のどこに表示されているかを特定する要素グラウンディングタスクと、ページコンテンツを読み取り推論する必要があるスクリーンショット質問応答タスクが含まれます。スクリーンショット QA の部分だけでも、約 400 のウェブサイトから抽出された 220 万組以上の質問回答ペアが含まれています。
各データソースの詳細な内訳(収集方法やフィルタリング基準を含む)については、当社の技術レポートをご覧ください。
ベンチマーク
MolmoWeb は、ライブウェブサイトにインタラクションする必要がある 4 つの広く使用されている Web エージェントベンチマークで評価されます。それらは WebVoyager、Online-Mind2Web、DeepShop、および WebTailBench です。WebVoyager は arXiv や GitHub などの 15 の人気ウェブサイト全体にわたる一般的なウェブナビゲーションをテストします。Online-Mind2Web は 136 のウェブサイトにまたがる多様な範囲のマルチステップタスクをカバーしています。DeepShop は、Amazon における製品比較やリストのフィルタリングなど、複雑なショッピング関連クエリに焦点を当てています。WebTailBench は、エージェントの信頼性をストレステストするために設計された厳選されたタセット全体での指示従順性を評価します。
各ベンチマークにおいて、VLM(Vision Language Model)判事がエージェントがタスクを正常に完了したかどうかを評価します。
コンパクトなサイズにもかかわらず、4B モデルと 8B モデルの両方とも、オープンウェイト型ウェブエージェントの中で最先端の結果を達成しています。MolmoWeb (8B) は WebVoyager で 78.2%、DeepShop で 42.3%、WebTailBench で 49.5% のスコアを獲得し、Fara-7B を含む主要なオープンウェイトモデルをすべてのベンチマークで上回っています。DeepShop では、より小さな 4B モデルでもステップ予算の制約下で Fara-7B よりも優れたパフォーマンスを発揮し、さらに Fara が 100 ステップ制限される中で MolmoWeb はわずか 30 ステップという厳しい条件下でも勝利を収めています。また、MolmoWeb は、注釈付きスクリーンショットや構造化されたページデータに依存する、GPT-4o などより大規模なプロプライエタリモデル(独自開発モデル)を基盤としたエージェントよりも優れた結果を示しています。これは、これらの大規模モデルがはるかに豊かな入力表現と桁違いに多いパラメータ数を有していることを考えると、非常に印象的な成果です。
タスクの完了だけでなく、MolmoWeb は画面内の UI 要素を正確に特定する能力であるビジュアルグラウンディング(visual grounding)においても強力なパフォーマンスを示しています。ScreenSpot および ScreenSpot v2 ベンチマークでは、当社のデータで訓練された専用 8B グラウンディングモデルが、Fara-7B などのオープンウェイトモデルや、Claude 3.7 や OpenAI CUA などより大規模なプロプライエタリシステムを両方とも上回っています。さらに、グラウンディングの専門家としてではなく一般的なウェブエージェントとして訓練された MolmoWeb (4B) でさえも、これらのベンチマークで競争力のあるスコアを記録しつつ、完全なタスク完了も処理しています。
また、複数の独立したエージェントロールアウトを実行し、その中から最良の結果を選択することで、パフォーマンスが大幅に向上することも確認されました。このテスト時スケーリングアプローチにより、8B モデルは WebVoyager で pass@4 が 94.7%、Online-Mind2Web では 60.5% を達成しました(単一ロールアウトではそれぞれ 78.2% と 35.3%)。これは、推論時に追加の計算リソースを投入することで信頼性を大幅に向上できることを示しています。
制限事項と安全性に関する考慮点
MolmoWeb にはいくつかの既知の制限があります。純粋なビジョンベースモデルであるため、スクリーンショットからのテキスト読み取りにおいて誤りを犯す可能性があります。また、ページが完全に読み込まれる前にスクロールするなど、不適切な行動によって軌道から外れ、関連するコンテンツを見逃すこともあります。指示がより曖昧になったり、多くの制約を含んだりするとパフォーマンスは低下し、特定のページ要素内でのスクロールやドラッグ&ドロップといった特定のアクションは依然として困難です。さらに、安全性とプライバシーの懸念により、ログインや金融取引を必要とするタスクについてはトレーニングされていません。これらはすべて改善が期待される活発な分野です。
安全性の観点から、MolmoWeb は透明性を中核目標として設計されており、すべてのコンポーネントは検査と監査のために公開されています。ホスト版デモ には追加の安全対策が組み込まれており、ホワイトリストに登録された特定のウェブサイトのみに制限され、Google Cloud Natural Language API を使用して不安全なクエリをフラグ付けして拒否し、入力フィールドタイプを入力前に確認し、パスワードやクレジットカード関連のフィールド上でのアクションをブロックします。これらの制限はデモ環境に固有のものであり、モデル自体に組み込まれているわけではありません。分野が成熟するにつれて、研究コミュニティには追加の安全メカニズムの開発と実験を促すものです。
これが実現すること
MolmoWeb は Hugging Face と GitHub を通じて利用可能であり、すべてのトレーニングデータ、評価ツール、およびローカルでモデルを実行するための推論ライブラリも含まれています。開発者は MolmoWeb のセルフホスティングを開始し、日常のブラウザタスクを自動化できます。例えば、固定スケジュールでルーチンタスクを実行したり、異なるパラメータを使用してテンプレート化されたクエリを実行してウェブサイトや製品全体から情報を収集したり、各ステップが直前のブラウザ状態を引き継ぐ複雑なワークフローに単純なクエリを連鎖させたりすることが可能です。
トレーニングパイプライン全体がオープンであるため、開発者は独自のデータでモデルをファインチューニングし、特定のユースケースに最適化することも可能です。一方、研究者は多モーダルウェブエージェントの科学を推進するために、モデルの改善やトレーニングデータの拡張、新しいトレーニング手法の開発など、あらゆるコンポーネントを検証・構築することができます。
オープンなウェブ上で能力のあるエージェントを展開することは、重要な未解決の課題を提起します。エージェントは、自身が相互作用するウェブサイトの利用規約をどのように尊重すべきでしょうか?違法または不適切なコンテンツへのアクセスを防ぐにはどうすればよいのでしょうか?安全な金融取引を保証し、ユーザーの個人情報を保護するにはどうすればよいのでしょうか?不可逆的な行動を防ぐにはどうすればよいのでしょうか?システム全体をオープンにすることで、より多くの人々がこれらの問いに答え、ウェブ上で信頼できる自動化に必要な安全性の実践を開発するプロセスに参加できるようになります。
ウェブは世界最大のソフトウェアプラットフォームです。それを確実にナビゲートできるエージェントは、情報やデジタルサービスへのアクセスを劇的に拡大させる可能性があります。それ以上に重要なのは、MolmoWeb が多モーダルモデルを画像の受動的な理解から、見たものに基づいて行動するシステムへと押し上げるという、エキサイティングな科学的方向性における一歩を表していることです。
最新の Ai2 ニュースに関する月次更新を受け取るには購読してください。
原文を表示
*Update April 10: MolmoWeb code release*
We're releasing the full MolmoWeb codebase—the training code, eval harness, an annotation collection tool, a synthetic data generation pipeline, and the client-side code for our demo.
The training code includes everything needed to customize MolmoWeb for specific applications. The annotation tool lets you record human task demonstrations, then fine-tune the model on that data. The eval harness lets you evaluate agents like MolmoWeb on popular navigation benchmarks such as WebVoyager, Online-Mind2Web, WebTailBench, and Deepshop. It doubles as a synthetic data gen pipeline as well—you can generate web browsing data using LLM- and VLM-powered agents with AxTree/screenshot input.
We’re also releasing the client-side code for our MolmoWeb demo so you can see how we built the interface that lets you give MolmoWeb a task and watch it navigate websites in real time. Use it as a starting point for your own web agent UI.
Whether you want to reproduce our results, evaluate a web agent, or fine-tune MolmoWeb on a new domain, the tools are all here in the MolmoWeb repo on GitHub—and we’ve uploaded our technical report to arXiv.
We look forward to seeing what you build.
*Note: If you previously downloaded our training data from Hugging Face, please redownload—the datasets have been updated since the initial release.*
*Original post follows.*
Web agents – systems that can navigate and complete tasks in a browser on your behalf – are one of the most promising applications of multimodal AI. They represent a natural next step for vision-language models, moving from understanding images through captions and visual question answering to actually using that understanding to take action in the world. But the most capable web agents today are proprietary, trained on undisclosed data with undisclosed methods. The open-source community lacks not just the models but the training data, infrastructure, and evaluation tools needed to build competitive alternatives. That gap limits reproducibility, slows research progress, and makes it difficult to understand how these systems actually work. In many ways, web agents today are where LLMs were before Olmo—the community needs an open foundation to build on.
Today we're announcing MolmoWeb, an open visual web agent built on our Molmo 2 multimodal model family in two sizes (4B and 8B parameters) along with the weights, training data, code (training code coming soon), and evaluation tools used to build it. Designed for self-hosted deployment – whether locally or on cloud services – MolmoWeb can operate a browser by interpreting the same visual interface that humans see, connecting perception and action: given a task instruction and a live webpage, the model observes the page through screenshots, predicts the next step, and executes browser actions such as clicking, typing, or scrolling.
Unlike other open-weight web agents, MolmoWeb was trained without distilling from proprietary vision-based agents—our data comes from synthetic trajectories generated by text-only accessibility-tree agents and human demonstrations.
Alongside the model we’re releasing MolmoWebMix, a large and diverse dataset for training web agents, along with a complete training and evaluation pipeline, reproducible model checkpoints, and tools for collecting web-interaction data. Together these provide a full recipe for building web agents – from data collection to deployment – enabling researchers and developers to inspect and improve every part of the stack.
From looking to doing
Molmo models are trained for multimodal understanding, excelling at tasks such as captioning, visual reasoning, and grounding language in images. MolmoWeb extends these capabilities to browser control.
The system works in a simple loop—look at the screen, decide what to do, do it. At each step it receives a task instruction (e.g., "Find the cheapest nonstop flights from Seattle to Tokyo"), a screenshot of the current browser view, and the history of recent actions. The model then produces a short natural-language thought describing its reasoning, followed by the next browser action to execute.
Supported actions include navigating to URLs, clicking at screen coordinates, typing text into fields, scrolling pages, opening or switching browser tabs, and sending a message back to the user. These actions operate directly in the browser viewport, with click locations represented as normalized coordinates and converted to pixels when executed.
This design allows MolmoWeb to interact with websites the same way people do—by interpreting visual layout rather than relying on structured page representations like HTML or accessibility trees. Working from screenshots brings practical advantages. A single screenshot is far more compact than a serialized page representation, which can consume tens of thousands of tokens. Visual interfaces also remain stable even when underlying page structures change, and because the model reasons about the same interface the user sees, its behavior is easier to interpret and debug.
In practice, this means MolmoWeb can carry out a wide range of everyday web tasks – navigating multi-page websites, filling out forms, searching and filtering product listings, or retrieving information from a target webpage – all without needing a dedicated API for any particular website or service. The model decomposes instructions into sequences of actions, maintaining context about previous steps while responding to what appears on the page.
A typical interaction might involve navigating to a website, identifying a search field, entering a query, interpreting the results, opening the relevant page by clicking on links, and extracting or presenting the answer. Throughout, the agent's internal reasoning and action trace remain visible, allowing users to inspect the process and intervene if needed.
A dataset for training web agents
One major challenge in building web agents is the lack of public training data. Most prior systems rely on undisclosed training data. To address this, we created MolmoWebMix, a large open dataset that combines synthetically generated data with human-annotated examples—designed specifically for training multimodal web agents.
MolmoWebMix combines several complementary components.
Human demonstrations. Crowdworkers performed various browsing tasks using a custom Chrome extension that recorded actions and screenshots, capturing realistic behavior across tasks such as search, navigation, and form filling. The resulting dataset includes 36K human task trajectories – the largest publicly released dataset of human web task execution to date – spanning over 623K individual subtask demonstrations across more than 1.1K websites.
Synthetic trajectories. To scale beyond what human annotation alone can provide, we generated additional trajectories using automated agents that operate on webpage accessibility trees. These include single-agent runs filtered for task success, multi-agent pipelines that decompose tasks into subgoals and verify completion, and deterministic navigation paths constructed by systematically exploring link structures across hundreds of websites. Together, these methods produce a large and diverse set of browsing trajectories without requiring further manual effort.
GUI perception data. Finally, MolmoWebMix includes training data that teaches the model to interpret webpage screenshots. This covers element grounding tasks – identifying where a UI element appears on screen – and screenshot question-answering tasks that require reading and reasoning about page content. The screenshot QA portion alone contains over 2.2 million question-answer pairs drawn from nearly 400 websites.
For a detailed breakdown of each data source, including collection methodology and filtering criteria, see our technical report.
Benchmarks
We evaluate MolmoWeb on four widely used web-agent benchmarks that require interacting with live websites: WebVoyager, Online-Mind2Web, DeepShop, and WebTailBench. WebVoyager tests general web navigation across 15 popular websites such as arXiv and GitHub. Online-Mind2Web covers a more diverse range of multi-step tasks spanning 136 websites. DeepShop focuses on complex shopping-related queries on Amazon, such as comparing products and filtering listings. WebTailBench evaluates instruction-following across a curated set of tasks designed to stress-test agent reliability.
In each, a VLM judge evaluates whether the agent successfully completed the task.
Despite their compact size, both the 4B and 8B MolmoWeb models achieve state-of-the-art results among open-weight web agents. MolmoWeb (8B) scores 78.2% on WebVoyager, 42.3% on DeepShop, and 49.5% on WebTailBench, outperforming leading open-weight models like Fara-7B across all four benchmarks. On DeepShop, even the smaller 4B model outperforms Fara-7B at matching step budgets—and still wins when limited to just 30 steps against Fara's 100. MolmoWeb also outperforms agents built on much larger proprietary models like GPT-4o that rely on annotated screenshots and structured page data—a striking result given that those models enjoy substantially richer input representations and orders-of-magnitude higher parameters.
Beyond task completion, MolmoWeb also demonstrates strong visual grounding—the ability to precisely locate UI elements on screen. On the ScreenSpot and ScreenSpot v2 benchmarks, a dedicated 8B grounding model trained on our data outperforms both open-weight models like Fara-7B and much larger proprietary systems including Claude 3.7 and OpenAI CUA. Even MolmoWeb (4B), trained as a general web agent rather than a grounding specialist, scores competitively on these benchmarks while also handling full task completion.
We also find that running multiple independent agent rollouts and selecting the best result significantly improves performance. With this test-time scaling approach, the 8B model reaches 94.7% pass@4 on WebVoyager and 60.5% on Online-Mind2Web (compared to 78.2% and 35.3% with a single rollout), demonstrating that additional compute at inference time can substantially improve reliability.
Limitations and safety considerations
MolmoWeb has several known limitations. As a purely vision-based model, it can make mistakes when reading text from screenshots. It can also be thrown off track by incorrect actions—for example, scrolling before a page has finished loading and missing relevant content. Performance degrades as instructions become more ambiguous or involve many constraints, and certain actions like scrolling within a specific page element or drag-and-drop remain challenging. Additionally, MolmoWeb is not trained on tasks that require logins or financial transactions, due to safety and privacy concerns. These are all active areas for improvement.
On the safety side, MolmoWeb was designed with transparency as a core goal—every component is open for inspection and audit. Our hosted demo includes additional safeguards: it is restricted to a set of whitelisted websites, uses the Google Cloud Natural Language API to flag and reject unsafe queries, checks input field types before typing, and blocks actions on password and credit card fields. These restrictions are specific to the demo environment rather than built into the model itself, and we encourage the research community to develop and experiment with additional safety mechanisms as the field matures.
What this unlocks
MolmoWeb is available through Hugging Face and GitHub, along with all training data, evaluation tools, and an inference library for running the model locally. Developers can start self-hosting MolmoWeb to automate everyday browser tasks—running routine tasks on a fixed schedule, executing templated queries with different parameters to gather information across websites or products, and chaining simpler queries into complex workflows where each step picks up from the last browser state.
Because the full training pipeline is open, developers can also fine-tune the model on their own data to work well for their specific use cases. Researchers, meanwhile, can inspect and build on every component to advance the science of multimodal web agents, from improving the models and expanding the training data to developing new training methods.
Deploying capable agents on the open web raises important unsolved questions. How should agents respect the terms and conditions of websites they interact with? How do we prevent agents from accessing illegal or inappropriate content? How do we ensure safe financial transactions and protect users' personal information? How do we prevent irreversible actions? Making the full system open allows more people to participate in answering these questions and developing the safety practices needed for trustworthy automation on the web.
The web is the world's largest software platform. Agents that can navigate it reliably could dramatically expand access to information and digital services. Just as importantly, MolmoWeb represents a step in an exciting scientific direction—pushing multimodal models beyond passive understanding of images toward systems that can act on what they see.
Subscribe to receive monthly updates about the latest Ai2 news.
関連記事
退屈な PDF タスクを自動化する Python スクリプト 5 つ
KDnuggets は、PDF の処理や変換など日常的な作業を自動化するための有用な Python スクリプト 5 つを紹介した。
エージェントが2つのHugging Face Spaceを連鎖させて3Dのパリ美術館を構築した方法
Hugging Face Blogは、AIエージェントが2つの異なるHugging Face Spaceを連携させることで、3D形式のパリ美術館を構築するプロセスを紹介している。
Cohere が開発者向けコード生成モデル「North Mini Code」を発表:30B パラメータの MoE アーキテクチャで 3B アクティブ
Cohere AI チームは、ソフトウェアエンジニア向けのオープンウェイトコード生成モデル「North Mini Code」を公開した。このモデルは総パラメータ数 30B の混合専門家(MoE)アーキテクチャを採用し、トークン処理時に 3B のパラメータのみが活性化するように設計されている。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み