動的フィルタリングによるWeb検索の精度と効率の向上
動的フィルタリング技術を活用することで、Web検索の精度と効率を同時に高める方法について説明しています。
キーポイント
Claudeのウェブ検索ツールに動的フィルタリング機能が追加され、検索精度と効率が向上
検索結果をコンテキストに取り込む前にコード実行でフィルタリングし、関連情報のみを保持することでトークン使用量を24%削減
BrowseCompとDeepsearchQAのベンチマークで平均11%の性能向上を達成(Opus 4.6は61.6%の精度)
エージェントワークフロー向けのコード実行機能をウェブ検索に拡張した技術的進展
影響分析・編集コメントを表示
影響分析
この技術は大規模言語モデルの実用性を高める重要な進歩であり、特に情報検索タスクにおけるコスト効率と精度の両立を実現。エージェント機能の進化と実世界データ活用の新たな可能性を示している。
編集コメント
「検索してから考える」という従来のアプローチを「フィルタリングしてから取り込む」に進化させた点が核心。APIユーザーにとってはコスト削減と精度向上の両面で実用的なアップデート。
動的フィルタリングによるウェブ検索の精度と効率性の向上
Anthropicは、Claude Opus 4.6およびSonnet 4.6のリリースに合わせ、ウェブ検索およびウェブフェッチツールの新バージョンを公開した。これらのツールには「動的フィルタリング」という新機能が導入され、複雑なウェブ検索タスクにおけるClaudeの精度と効率が大幅に向上している。
動的フィルタリングの仕組み
従来の基本的なウェブ検索では、エージェントは検索クエリを実行し、得られた結果(多くの場合は複数ウェブサイトの全文HTML)を全てコンテキストに読み込み、その上で推論を行う必要があった。このプロセスはトークン消費量が非常に大きく、さらに読み込まれたコンテキストには無関係な情報が多く含まれるため、応答の質が低下する課題があった。
新しい動的フィルタリング機能は、この問題を解決する。Claudeは検索結果を得た後、応答する前に、コードを自ら記述・実行して検索結果を「後処理」する。具体的には、検索で取得した生のHTMLファイルをそのまま読み込むのではなく、動的に結果をフィルタリングし、関連性の高い情報のみを選別してコンテキストに保持し、残りは破棄する。これにより、無駄なトークン消費を削減し、処理すべき情報の質を高めることができる。この手法は他のエージェントワークフローですでに有効性が確認されており、コード実行やプログラム的ツール呼び出しなどの形でAPIにネイティブサポートが追加されていたが、今回それがウェブ検索ツールにも統合された。
性能評価結果
動的フィルタリングの有無による性能比較が二つのベンチマークで実施された。その結果、動的フィルタリングにより平均で11%の性能向上が達成され、同時に入力トークン数は24%削減された。
- BrowseComp(単一情報の検索):このベンチマークは、意図的にオンライン上で見つけにくくされた特定の情報を、多数のウェブサイトを巡って見つけられるかをテストする。動的フィルタリングはClaudeの精度を著しく向上させ、Sonnet 4.6では33.3%から46.6%へ、Opus 4.6では45.3%から61.6%へと改善した。
- DeepsearchQA(複数情報の網羅的検索):このテストでは、多くの正解が存在するリサーチクエリが与えられ、それら全てをウェブ検索で見つけ出せるかが問われる。回答の正確性と網羅性のバランスを示す「F1スコア」で測定されたところ、動的フィルタリングにより、Sonnet 4.6のスコアは52.6%から59.4%へ、Opus 4.6では69.8%から77.3%へと向上した。
要約すると、動的フィルタリングの導入により、Claudeはウェブ検索時に自らコードを実行して情報を前処理し、ノイズとなる無関係なデータをあらかじめ除去できるようになった。これによって、より少ないトークン消費で、より正確かつ網
原文を表示
Contact salesContact salesContact sales
Contact salesContact salesContact sales
Contact salesContact salesContact sales
Contact salesContact salesContact sales
Increase web search accuracy and efficiency with dynamic filtering
Dynamic filtering makes Claude more accurate and efficient on complex web search tasks. Here’s how it works, and how to enable it on the API.
ProductClaude Developer Platform
ShareCopy linkhttps://claude.com/blog/improved-web-search-with-dynamic-filtering
Alongside Claude Opus 4.6 and Sonnet 4.6, we’re releasing new versions of our web search and web fetch tools. Claude can now natively write and execute code during web searches to filter results before they reach the context window, improving its accuracy and token efficiency.
Web search with dynamic filtering
Web search is a highly token-intensive task. Agents using basic web search tools need to make a query, pull search results into context, fetch full HTML files from multiple websites, and reason over it all before responding. But the context being pulled in from search is often irrelevant, which degrades the quality of the response.To improve Claude’s performance on web searches, our web search and web fetch tools now automatically write and execute code to post-process query results. Instead of reasoning over full HTML files, Claude can dynamically filter the search results before loading them into context, keeping only what’s relevant and discarding the rest.We’ve previously found this technique to be effective across other agentic workflows, and we’ve added tools such as code execution and programmatic tool calling for native support on our API. We’re now bringing these same techniques to web search and web fetch.
Evaluating Claude’s ability to search the web
We evaluated web search on Sonnet 4.6 and Opus 4.6 with and without dynamic filtering and no other tools enabled. Across two benchmarks, BrowseComp and DeepsearchQA, dynamic filtering improved performance by an average of 11% while using 24% fewer input tokens.BrowseComp: Searching the web to find one answer
BrowseComp tests whether an agent can navigate many websites to find a specific piece of information that is deliberately hard to find online. Dynamic filtering improved Claude’s accuracy significantly, bringing Sonnet 4.6 from 33.3% to 46.6% and Opus 4.6 from 45.3% to 61.6%.
DeepsearchQA: Searching the web to find many answers
DeepsearchQA presents agents with research queries that have many correct answers, all of which must be found via web search. It tests whether an agent can systematically plan and execute multi-step searches without missing any answers. It’s measured by an “F1 score,” which balances precision and recall—capturing both the accuracy of returned answers and the completeness of the search.
Dynamic filtering improved Claude’s F1 score from 52.6% to 59.4% for Sonnet 4.6 and from 69.8% to 77.3% for Opus 4.6.
Token costs will vary depending on how much code the model needs to write to filter context. Price-weighted tokens decreased for Sonnet 4.6 on both benchmarks but increased for Opus 4.6. To better understand your own costs, we recommend evaluating this tool against a representative set of web search queries your agent is likely to encounter in production.
Poe by Quora is one of the largest multi-model AI platforms, giving millions of users access to over 200 models through a single interface. Internal teams at Quora found that Opus 4.6 with dynamic filtering “achieved the highest accuracy on our internal evals when tested against other frontier models,” said Gareth Jones, Product and Research Lead. “The model behaves like an actual researcher, writing Python to parse, filter, and cross-reference results rather than reasoning over raw HTML in context.”
Dynamic filtering in the web search and fetch tools
Dynamic filtering will be turned on by default when using our new web search and web fetch tools with Sonnet 4.6 and Opus 4.6 on the Claude API. For complex web search queries, such as sifting through technical documentation or verifying citations, you can expect similar performance improvements to those shown above.
Here’s how to use it in the API:
{ "model": "claude-opus-4-6", "max_tokens": 4096, "tools": [ { "type": "web_search_20260209", "name": "web_search" }, { "type": "web_fetch_20260209", "name": "web_fetch" } ], "messages": [ { "role": "user", "content": "Search for the current prices of AAPL and GOOGL, then calculate which has a better P/E ratio." } ] } Code execution, memory, and more tools are now generally available
We’re also graduating several tools to general availability to help agents perform better across token-intensive tasks:
Code execution: Provides a sandbox for agents to run code during a conversation to filter context, analyze data, or perform calculations.
Memory: Store and retrieve information across conversations through a persistent file directory, so agents can retain context without keepin
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み