AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Allen AI (AI2)·2026年4月29日 17:00·約12分

Molmo が指差して行動する能力を習得

#Vision-Language Models#Open Source AI#Embodied AI#Allen Institute for AI
TL;DR

Allen AI は、視覚的理解から行動へと拡張した「MolmoPoint」と「MolmoWeb」を発表し、モデルが指差しやナビゲーションを通じて世界と対話できるオープンなツールを提供した。

AI深層分析2026年4月30日 06:02
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

視覚的アクション機能の追加

既存の Molmo シリーズに「MolmoPoint」と「MolmoWeb」が加わり、単なる画像認識から指差しやナビゲーションといった能動的な行動が可能になった。

2

研究者向けオープンツールの提供

AI モデルが視覚情報を基に世界と相互作用する能力を研究・開発するための、オープンソースのツールセットとして公開された。

3

Molmo ファミリーの拡張

視覚的理解から視覚的行動へと範囲を広げることで、同シリーズの応用可能性と実世界での活用価値が大幅に向上した。

影響分析・編集コメントを表示

影響分析

この発表は、AI モデルの役割を受動的な分析から能動的な実行へとシフトさせる画期的な進展です。特にオープンソースとして提供されることで、研究コミュニティにおける視覚的推論と行動計画(Visual Action Planning)の実験環境が急速に整備され、次世代の自律型エージェント開発への道が開かれます。

編集コメント

「見る」から「動く」へ、AI の実世界適用に向けた重要な一歩です。オープンソース化により、この技術がどのように進化し、ロボットや複雑なインタラクションシステムに組み込まれていくかが注目されます。

2026 年 4 月 29 日

Ai2

Molmo をリリースした際、それはオープン性の賭けでした。つまり、オープンなビジョン言語モデルは、クローズドな代替品と同等かそれ以上の性能を発揮できるだけでなく、研究者や開発者にとってクローズドシステムにはないもの——点検し、適応させ、再現し、その上で構築できるモデル——を提供できると信じていたのです。Molmo 2 はこの基盤を動画へと拡張し、追跡機能、複数フレームにわたる推論、時間的 grounding(時系列の特定)を追加しました。

わずか数年で、Molmo ファミリーのオープン性はすでに複利効果を生み出しています。

ハーバード大学とブロード研究所の研究者たちは Molmo のポインティング機能を活用した自律型エージェントを構築 しました。これは再学習を行うことなく、実験用動画内の動物の行動を追跡するために利用されています。エディンバラ大学のチームは、Molmo を AI の監督のための多モーダル討論フレームワーク に組み込みました。ここでは、Molmo が提供する詳細な視覚記述が、自動化された審判に推論上の誤りを発見させるのに役立ちました。また、トレント大学の科学者たちは、Molmo の完全にオープンなトレーニングパイプラインを活用し、VLM(ビジョン言語モデル)が空間関係をどのように理解しているかを調査・再構築 しました。

これらのプロジェクトが可能だったのは、Molmo の重み、データ、コードが拡張の基盤としてオープンにされていたからです。Molmo が成長するにつれて、そのオープン性は、現実世界で「見る」だけでなく「行動」も行う AI システムのためのより広範なエコシステムへと進化を促しています。

MolmoPoint: ポイントするより良い方法

ポイント機能は、ビジョンモデルが実行できる中で最も実用的なことのひとつです。これにより、ロボットがマグカップを掴むべき場所を知ったり、自動化アプリが画面上のどのボタンをタップすべきかを理解したりできます。

また、人がモデルが実際に「何を見ている」のかを理解する仕組みの中核でもあります。

"ポイントできるモデルを持つことは、解釈可能性を含む多くの面で重要です。なぜなら、モデルはユーザーにどこを見るべきかを正確に示すことができるからです」と、Molmo の研究リーダーである Chris Clark は述べています。「数え上げのような複雑なタスクにおいても重要で、モデルは人間が行うように一度に一つずつものを指し示すことで数を数えることができます。また、ロボティクスやコンピューター使用エージェントにとっても重要です」

問題は、汎用 VLM(Vision-Language Model)を効果的にポイントさせる方法を教えることが、聞こえほど簡単ではないことです。多くの場合、他のタスクに比べてはるかに多くのトレーニングとデータ混合の調整が必要となります。「Molmo や Molmo 2 のトレーニングで困難に直面した際、それは往々にしてポイント機能が期待していたパフォーマンスに遅れをとっていたためでした」と Clark は言います。

ほとんどのモデルは、テキスト座標を生成することでポイントをします。これは間接的であり、しばしば脆いプロセスです。MolmoPoint(3 月にリリース)は、より直感的なアプローチを採用しています。モデルがテキストとして座標を出力するのではなく、見えるものから直接選択してポイントを行います。まず粗い領域を選択し、その後正確な位置に焦点を絞るという方法です。

このアイデアは、ポイントをクロスモーダル問題として捉えることから生まれました。

"画像に対して X 座標と Y 座標を指定するのは問題ありません」とクラークは説明します。「しかし、入力テキストや入力オーディオクリップのようなものを指し示したい場合、その方法では機能しません。そこで私たちは、多くのモダリティにわたって同じメカニズムでどのようにして指し示すことができるかを問い、入力データ自体を直接指し示すことが明白な答えであると結論付けました。

この成果は、クラーク自身や MolmoPoint の背後にある研究チームの他のメンバーをも驚かせました。MolmoPoint は、同程度の規模を持つオープンモデルの中で、ポイント指定、画面要素の識別、オブジェクト追跡のベンチマークにおいて新たな最高記録を達成しました。その結果、以前の世代の Molmo モデルと比較して、より高精度で、より効率的で、より頑健な指し示す能力が実現されました。特に高解像度や、多くの小さなボタンやメニューが密集した複雑なユーザーインターフェース(UI)において、その性能は顕著です。

「最も驚いたのは、トレーニング効率の評価で見られた飛躍的な向上と、エンドタスクのパフォーマンスが私の予想以上に大幅に改善されたことです」とクラークは述べています。

私たちは、一般的な画像およびビデオタスク、ソフトウェアインターフェース、そしてビデオ追跡用に調整した MolmoPoint のバリアントを公開しました。また、他者が独自のポイント指定モデルを訓練できるようにするため、数千枚の注釈付きスクリーンショットや人間がラベル付けしたオブジェクトトラックを含む新しいオープンデータセットも提供しています。

より良いグラウンディング、そして調整が簡単なグラウンディングは、多くの可能性を開きますとクラーク氏は述べています。「データミックスを徹底的にチューニングしたり、トレーニングミックスの大きな割合をポインティングデータに割くことなく、グラウンディング VLM(Vision-Language Model)を学習しやすくすることは、トレーニングをより簡単で安価にするでしょう。」

MolmoWeb: オープンウェブのためのオープンエージェント

ポインティングが直接行動に変換されるもう一つの場所はウェブです。

MolmoWebは、ウェブサイトをナビゲートしてユーザーに代わってタスクを完了できるマルチモーダルウェブエージェントのスイートです。指示とスクリーンショットを与えられれば、MolmoWeb は HTML やアクセシビリティツリーに依存せず、視覚インターフェースのみから次のブラウザアクションを予測します。

「MolmoWeb は、人間と同じインターフェースを使用してブラウザ環境でタスクを自動化するビジュアルエージェントを構築するための Ai2 の最初のステップです」と、MolmoWeb リードのタンマイ・グプタ氏は述べています。「それはスクリーンショットによる知覚であり、マウスとキーボードによる操作です。」

視覚ベースの知覚は、MolmoWeb における意図的な設計決定でした。スクリーンショットは、背後にあるページコードよりもウェブサイトの改変に対して頑健であり、テキストを処理するよりもキャプチャコストが安価です。なぜなら、単一の画像でウェブページの構造を表す数千行のコードを置き換えられるからです。「私たちはエージェントにより多くのことをさせたいだけでなく、より確実に実行させたいのです」とグプタ氏は付け加えます。

これはまた、MolmoWeb の背後にあるより大きな賭けの一部でもあります。

「人間と同じインターフェースを使用するエージェントを構築することは、能力が向上するにつれてウェブ上のあらゆる経済的に有用な人間の活動が可能になることを意味します」とグプタは述べています。「どのウェブサイトも、どの情報もアクセス不可能にはなりません。開発者はカスタム API や特別な計測装置を必要としません。必要な作業を平易な言語で記述するだけで、エージェントが実行してくれます。そしてそれは一度きりではなく、大規模な並列処理によって百万回以上行うことも可能です。」

MolmoWeb は主要なウェブブラウジングベンチマークにおいて同等のオープンウェイトモデルを上回り、最も能力の高いバージョンはパラメータ数が少なくスクリーンショットのみを参照しているにもかかわらず、GPT-4o などのはるかに大規模なプロプライエタリモデルを基盤としたエージェントをも凌駕しています。

その成果に至るまでには時間がかかりました。「プロジェクトを開始した当時、LLM のみで構築された合成データパイプライン、人間の軌跡アノテーション、ブラウザ評価ハーン、モデルトレーニングなど、多くの要素が絡み合っており、収集したすべてのデータに対する教師あり微調整からどのようなパフォーマンスが得られるかについては、完全に確信が持てませんでした」とグプタは語っています。

彼らのアプローチが妥当であることを証明するため、チームは昨年、20 のウェブサイトのみで各 5〜10 のテンプレート化されたタスクを実行するエージェントを構築するという予備目標を設定しました。2026 年初頭には、焦点はトレーニングデータのスケールアップと評価の堅牢性の向上へとシフトしました。

「エージェント研究において、評価は非常に困難かつ高コストです。なぜなら、単なる孤立した予測の評価ではなく、一連の行動を評価する必要があるからです。その過程で一つの失敗が、残りの軌道全体に連鎖的な影響を与える可能性があります」とグプタ氏は述べています。「私たちは、モデルのパフォーマンスを正確に把握し、それを妨げていたギャップを埋めるために、データ生成からトレーニング、評価に至るまでの一貫性を追跡し、軌道を可視化することに多くの時間を費やしました。」

ウェブ用のエージェントはオープンソースであるべきだと私たちは信じています。そのため、モデルのチェックポイント、最も大規模な公開可能な人間によるウェブタスクデモンストレーションを含むトレーニングデータ、そして他者が私たちの研究を再現・拡張・改善できるようにするための統一された評価ハッチをリリースしました。

「ビジョンランゲージモデルは、2015 年頃の初期のキャプション生成や視覚的質問応答モデルに比べて大幅に進化しましたが、その真の可能性を発揮するためには、単に記述的なキャプションを出力するだけでなく、経済的に実際に効果をもたらす行動を駆動するためにどう活用するかを解明する必要があります」とグプタ氏は言います。「MolmoWeb では、コミュニティ全体でこの課題に取り組む必要があると考え、すべてをオープンソース化しました。」

グプタ氏は、MolmoWeb がより多くの研究者に「袖まくり」して、人間の仕事を代替するのではなく補完するために設計された自律型ビジョンエージェントの構築を手伝うよう促すことを期待しています。

「私たちの北極星は、人間にしかできないことに集中できるようにするデジタルアシスタントです」と彼は付け加えます。「コンピューター使用やウェブ使用のエージェントを支えるモデルは、人間のデジタル活動を根本から変革し、祖父母から、エージェントネイティブなデジタル世界で育つ子供たちまで、すべての人に影響を及ぼすことになります。その実現に向けたトレーニング手法やアーキテクチャに私は興奮しています。私は、単に強力であるだけでなく、誰もがアクセスできるものとなる、人類の次世代コンピューターインターフェースを定義する技術の形成に貢献したいのです。」

ビルディングブロックであり、サイロではない

MolmoPoint と MolmoWeb は、同じ問題の異なる側面に取り組んでいます。それはモデルが視覚情報を理解し、それに基づいて行動できるようにすることです。MolmoPoint はポインティングをより精密にし、MolmoWeb は画面に表示されている情報を用いてオープンウェブをナビゲートします。両者とも Molmo 2 を基盤としており、そのビジョンバックボーンと共通のオープンな開発哲学を引き継いでいます。

MolmoBot と MolmoSpaces がすでにロボティクス向けのオープンインフラストラクチャを提供しており、WildDet3D が AR/VR やデジタルシーン理解などの分野で新たな可能性を開いている中、Molmo エコシステムは現在、ポインティング、ウェブインタラクション、3D 知覚、物理的操作のすべてをカバーするに至っています。

このエコシステムのすべての要素はオープンソースであり、つまり大学研究室が特定のユースケース向けに MolmoPoint をファインチューニングしたり、ベンダー依存を負わずに MolmoWeb 上にエージェントを構築したりすることが可能になります。私たちはこれらのツールを構築することで、ビジュアルインテリジェンスの進展がアクセス権を持つ者に限定されることなく、次のブレークスルーはどこからでも生まれるようにしています。

最新の Ai2 ニュースに関する月次更新を受け取るには、購読してください。

原文を表示

April 29, 2026

Ai2

When we released Molmo, it was a bet on openness: that an open vision-language model could not only match or outperform closed alternatives, but also give researchers and developers something closed systems cannot—models they can inspect, adapt, reproduce, and build on. Molmo 2 extended that foundation to video, adding tracking, multi-frame reasoning, and temporal grounding.

In just a few short years, the Molmo family’s openness is already compounding.

Researchers at Harvard and the Broad Institute built an autonomous agent that relies on Molmo’s pointing capabilities to track animal behavior in experimental videos without any retraining. A team at the University of Edinburgh incorporated Molmo into a multimodal debate framework for AI oversight, where its detailed visual descriptions helped an automated judge catch reasoning errors. And scientists at the University of Trento drew on Molmo’s fully open training pipeline to probe and reshape how VLMs understand spatial relationships.

These projects were possible because Molmo’s weights, data, and code were open to build on. As Molmo grows, that openness is helping it evolve into a broader ecosystem for AI systems that see – and even act – in the real world.

MolmoPoint: A better way to point

Pointing is one of the most practically useful things a vision model can do. It's what lets a robot know where to grasp a mug or an automation app know which on-screen buttons to tap.

It's also core to how people understand what a model is actually “seeing.”

"Having models that can point is important for many things, including interpretability, since the model can show the user exactly where to look," says Chris Clark, Molmo research lead. "It matters for complex tasks like counting, since the model can count by pointing at things one at a time, the way a human would do it. And it matters for robotics and computer-use agents."

The issue is that teaching a general-purpose VLM to point well has been harder than it sounds–often requiring a lot of training and data mixture tuning, much more so than for other tasks. "When we had difficulties training Molmo and Molmo 2, it was often because pointing was lagging behind the performance we were expecting,” Clark says.

Most models point by generating text coordinates, which is an indirect and oftentimes brittle process. MolmoPoint, released in March, takes a more intuitive approach. Instead of outputting coordinates as text, the model points by selecting directly from what it sees—first picking a coarse region then zeroing in on the exact spot.

The idea came from approaching pointing as a cross-modal problem.

"Giving an X and Y coordinate is fine for images,” Clark explains, “but it wouldn't work if you wanted to point to some input text or even something like an input audio clip. So we asked how you could point with the same mechanism across many modalities, and pointing directly to input [data] was the obvious answer."

The payoff surprised even Clark and the rest of the research team behind MolmoPoint. The model sets new state-of-the-art results across pointing, screen element identification, and object tracking benchmarks among open models of comparable sizes. The result is more accurate, more efficient, and more robust pointing abilities than previous-generation Molmo models, particularly at high resolutions and in cluttered UIs with lots of small, tightly packed buttons and menus.

"The biggest shocks were just how much of a jump we saw in our training efficiency evaluations, and how much more end-task performance improved than I expected," Clark says.

We’ve made MolmoPoint variants tuned for general image and video tasks, software interfaces, and video tracking available, along with new open datasets including thousands of annotated screenshots and human-labeled object tracks so others can train their own pointing models.

Better grounding – and grounding that's simpler to tweak – opens up a lot of possibilities, Clark says: "Making it easier to train grounding VLMs without having to extensively tune data mixture or dedicate a large percentage of the training mixture to pointing data will make training easier and cheaper.”

MolmoWeb: An open agent for the open web

Another place where pointing directly translates into action is the web.

MolmoWeb is a suite of multimodal web agents that can navigate websites and complete tasks on behalf of users. Given an instruction and a screenshot, MolmoWeb predicts the next browser action, working from the visual interface alone without relying on HTML or accessibility trees.

“MolmoWeb is Ai2's first step toward building visual agents for automating tasks in a browser environment using the same interface as humans,” says Tanmay Gupta, MolmoWeb lead. “It’s perception via screenshots and manipulation via mouse and keyboard.”

Vision-based perception was a deliberate design decision for MolmoWeb. Screenshots are more robust to website changes than underlying page code, and capturing them is cheaper than processing text since a single image can replace thousands of lines of a webpage’s structure. “We not only want agents to do more, but to do so more reliably,” adds Gupta.

It’s also part of the larger bet behind MolmoWeb.

“Building an agent that uses the same interface as humans means that any and every economically useful human activity on the web is within reach as capabilities improve,” says Gupta. “No website, no piece of information would be inaccessible; developers won't need custom APIs or special instrumentation. Just describe in plain language what you need done and the agent does it. And it can do that not just once, but a million times over with massive parallelization.”

MolmoWeb outperforms comparable open-weight models on major web browsing benchmarks, and the most capable version also surpasses agents built on much larger proprietary models like GPT-4o despite having fewer parameters and seeing only screenshots.

Getting there took time. “When we started the project, there were a lot of moving parts – a synthetic data pipeline built entirely on LLMs, human trajectory annotation, a browser eval harness, model training – and we weren't fully sure what kind of performance we'd get from supervised fine-tuning on all the data we were collecting,” Gupta says.

To prove their approach was sound, the team set a preliminary goal last year: build an agent that works on just 20 websites with 5–10 templated tasks each. Into early 2026, the focus shifted to scaling training data and making evals more robust.

“In agentic research, evals are uniquely hard and expensive because you're not evaluating isolated predictions—you're evaluating a sequence of actions where a single failure can cascade through the rest of the trajectory,” says Gupta. “We spent a lot of time visualizing trajectories and tracking down inconsistencies across data generation, training, and evaluation—both to get a clean read on model performance and to close the gaps that were holding it back.”

We believe agents for the web should be open source. That's why we've released model checkpoints, training data that includes the largest publicly available set of human web-task demonstrations, and a unified evaluation harness so that others can reproduce, build on, and improve our work.

“Vision-language models have come a long way since the early captioning and visual question answering models of circa 2015, but to realize their full potential, we need to figure out how to use them to drive actions that actually move the needle economically—not just output descriptive captions,” Gupta says. “With MolmoWeb, we open-sourced everything because we believe this is a problem the community needs to solve together.”

Gupta hopes MolmoWeb will encourage more researchers to “roll up their sleeves” and help build autonomous visual agents designed to augment human work—not replace it.

“Our North Star is digital assistants that free people to focus on what only humans can do,” he adds. “The models behind computer-use and web-use agents are going to transform human digital activity, impacting everyone from our grandparents to our children who will be raised in an agent-native digital world. I'm excited about the training techniques and architectures that get us there; I want to help shape the technology that defines humanity's next interface to computers—one that's not just more powerful, but more accessible to everyone.”

Building blocks, not silos

MolmoPoint and MolmoWeb tackle different dimensions of the same problem: helping models understand and act on what they see. MolmoPoint makes pointing more precise, and MolmoWeb uses what's on screen to navigate the open web. Both build on Molmo 2, sharing its vision backbone and the same open development philosophy.

With MolmoBot and MolmoSpaces already providing open infrastructure for robotics, and WildDet3D opening up new possibilities in areas like AR/VR and digital scene understanding, the Molmo ecosystem now covers pointing, web interaction, 3D perception, and physical manipulation.

Every piece of this ecosystem is open source, which means a university lab can fine-tune MolmoPoint for a specific use case or a tinkerer can build an agent on top of MolmoWeb without taking on vendor dependency. We’re building these tools so progress in visual intelligence isn’t limited by who has access—and so the next breakthrough can come from anywhere.

Subscribe to receive monthly updates about the latest Ai2 news.

この記事をシェア

関連記事

Allen AI (AI2)重要度42026年6月25日 17:00

ハイブリッドモデルはどのトークンをより正確に予測するか?

Allen AI (AI2)2026年6月18日 17:00

Domyn と AISquared が Ai2 のオープンリリースをどう活用したか

Allen AI (AI2)重要度42026年6月18日 17:00

Domyn と AISquared が Ai2 のオープンリリースをどう活用したか

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む