スピーカーは、現在のブラウザエージェントが複雑なタスクで失敗する主な原因はモデルの知能不足ではなく、入力情報の非効率さにあると指摘します。従来のスクリーンショットやフル DOM の代わりに、ウェブページを圧縮した Markdown 形式で提供し、少ないトークン数で全体像を把握可能にする手法を実証しています。これにより、安価なモデルでも高速かつ正確に長期的なタスクシークエンスを遂行できることを示しました。
「モデルの性能向上」が主流の議論である中、「入力データの質と形式」に焦点を当てた逆説的で実用的な視点は、開発者にとって非常に示唆に富んでいます。具体的なベンチマーク比較があるため、ブラウザエージェントの実装を検討するエンジニア必見の内容です。
- 01
現状の課題分析
現在のブラウザエージェントはクリック一つにも数十秒かかり、複雑なタスクで失敗するが、モデル自体の知能不足ではなくインフラの問題である。
- 02
視覚表現の革新
20,000 トークンに達するフル DOM ではなく、1,800 トークンの圧縮された Markdown 形式でウェブページを表現し、エージェントが全体像を瞬時に把握可能にする。
- 03
実証された成果
安価なモデルを使用しながらも、Aadhaar のダウンロードやカナダのサイトでの予約など、従来の手法で失敗するタスクを数秒で完了させることに成功した。
- 04
今後のロードマップ
この技術をオープンソース化し、URL と意図を入力すれば実行結果を返す API やプラグインとして提供し、ブラウザエージェントの普及を目指す。
このアプローチは、高価な大規模言語モデルへの依存を減らし、コスト効率の高い実用的な AI エージェント開発の新たな基準を示します。特にエンタープライズ環境やリソース制約のある開発現場において、ブラウザ操作の自動化を現実的なものにする可能性が高く、Agentic AI の普及に寄与する技術的ブレークスルーです。