AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
LayerX Tech Blog·2026年4月8日 14:11·約1分で読める

AIエージェントの成功率向上策:長時間タスクにおけるスケーリング則と検証器の役割

#AIエージェント#長時間タスク#スケーリング則#検証器#自律実行#信頼性向上
TL;DR

LayerX Tech Blogの記事は、AIエージェントが長時間タスクを実行する際の成功率向上に向けて、スケーリング則の理解と検証器の役割が重要であると指摘し、Claude Opus 4.6のベンチマーク結果を引用しながら実用的な課題解決策を論じている。

AI深層分析2026年4月8日 15:41
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

長時間タスク実行の現状と課題

AIエージェントは長時間タスクをこなせるよう進化しているが、METRのベンチマークではClaude Opus 4.6で10時間タスクの成功率が50%と限界があり、ステップ数が膨大なため各ステップの成功率向上や失敗復帰の仕組みが必要である。

2

スケーリング則の重要性

長時間タスクにおけるAIエージェントの成功率を引き上げるためには、タスクの長さや複雑さに応じたパフォーマンス変化を理解するスケーリング則の解明が不可欠である。

3

検証器の役割と実装

各ステップの成功確率向上やリトライ・失敗原因の分析、失敗からの復帰を可能にする検証器の仕組みが、長時間タスク実行の信頼性向上に重要な役割を果たす。

4

実用化に向けた技術的アプローチ

記事は理論的な議論だけでなく、実際の長時間タスク実行で発生する課題を具体的に挙げ、成功率向上のための実用的な技術的アプローチを提案している。

影響分析・編集コメントを表示

影響分析

この記事は、AIエージェントの実用化における重要な課題である長時間タスク実行の信頼性向上に焦点を当て、具体的な技術的アプローチを提示している。AIエージェントがより複雑で長期的な業務を自律的に実行するための基盤技術開発に影響を与え、産業応用の拡大を促進する可能性がある。

編集コメント

AIエージェントの実用化における核心的な課題である長時間タスク実行の信頼性に焦点を当て、具体的なベンチマークデータと技術的解決策を提示している点が評価できる。実務者にとって即座に参考になる内容を含んでいる。

こんにちは!Ai Workforce事業部FDEの恩田(さいぺ)です。AIエージェントの進化は著しく、ますます長時間に及ぶタスクを実行できるようになってきています。この分野のベンチマークにおいて主導的な立場にあるMETRの発表によれば、最新のClaude Opus 4.6では、10時間のタスクを50%の確率で完了できることが示されています(成功率80%を達成するのは1時間のタスクです)。(出典: https://metr.org/ , 2026年4月7日アクセス)

しかしながら、長時間にわたるタスクでは、そのステップ数も膨大になります。各ステップの成功確率を高めたり、リトライや失敗の原因を分析し、たとえ失敗しても回復できるような仕組みが必要となってくるでしょう。この分野のいくつかの文献を読むと…

原文を表示

こんにちは!Ai Workforce事業部FDEの恩田(さいぺ)です。

AIエージェントの進化も凄まじく、どんどん長時間のタスクをこなせるようになっています。この分野のベンチマークの第一人者であるMETRでも、最新のClaude Opus 4.6で10時間のタスクが50%の確率で完了できることが示されています(80%だと1時間)。

(出典: https://metr.org/ , 2026/4/7アクセス)

とはいえ、長時間に渡るタスクは、ステップ数も膨大です。各ステップの成功確率を上げたり、リトライや失敗の原因を考え、失敗しても復帰できるような仕組みが必要になりそうです。この分野をいくつか読んだので、その中でもおもしろかった論文をピックアップし、紹介します。

100万ステップのタスクをノーミスで解く

最初に紹介するのは2025年11月に公開された Solving a Million-Step LLM Task with Zero Errors (Elliot Meyerson et al.) です。論文のタイトルにもあるように100万ステップもの長さのタスクをLLMで解こうという論文です。これほどステップ数が膨大になると、各ステップの成功確率がほぼ100%でないと、最後まで成功し切ることができません。

そこで、本論文は以下のようなプロセスを考え、スケーリング則を示しています。

(1)最小限にサブタスクへの分解。ただし、適切なサブタスクへの分解は本論文のスコープ外で、個に分解できたタスク列を所与のものとしている

(2)サブタスクレベルの投票に基づくエラー訂正

(3)相関エラーを減らすためのレッドフラッグ

特におもしろいのが、セクション3.2「First-to-ahead-by-k Voting and Scaling Laws」です。First-to-ahead-by-k Votingは、1つのステップを複数回実行し、他のどの候補よりも回多くサンプリングされたものを回答とする手法です。

この手法では、各ステップの成功確率について、の場合、このプロセスを通じて正しい候補が選択される確率が計算できます。さらに任意のエラー率 に対して、この投票プロセスが確率で正しい回答をもたらすようなあるが存在することが示せます(つまりを十分小さく取れば、各ステップがほとんど100%と成功するようなが存在する)。

さらに、個のタスクすべてを成功させるために必要ながでスケールするというのがこの論文の一番の見どころです。

導出を簡単に紹介します。まず、以下の定式化、仮定を置きます。

すべてのタスクを完了するために合計ステップが必要

固有のステップあたりの成功率をとする

解析は最悪のケース(確率の正しい候補が確率の単一の代替案と競合する)を仮定

サブタスクをステップに分解可能とする

各サブタスクのアクションを決定するために票の差が必要

このとき、すべてのタスクが成功する確率が計算できます。

(論文より引用)

ここで式(10)は、あるサブタスクは個のステップに分解でき、各ステップの成功確率がであることから、全てのステップが成功する確率です。これを図示したのが以下のFigure 3です。100万ステップを高い確率で成功するために、がそこまで大きくならないのは嬉しいですね。

(論文より引用)

また、に対するスケーリング則だけでなく、LLMの実行コストも計算できます。

(論文より引用)

特に(サブタスクが個に分解されるので、全個のステップに分解されるワーストケース)でも、以下のようにでスケールします。

(論文より引用)

別の観点として、式(17)は(は単一ステップあたりのLLMのコストなので、は成功するために必要なコストの期待値と見なせる)に対しても線形のオーダーとなっていることもわかります。が最小化されるようなLLMを選択するというのも一つポイントです。

また、を小さくできる点と、コストもで減衰できる点で、単位ステップの成功確率を上げる施策も重要です。この論文では信頼性の低い以下2つの兆候をレッドフラグとして利用することにも言及しています。

(1)過度に長い応答

(2)誤ってフォーマットされた応答

こういった「誤りである確率が著しく高い兆候」を見つけたらリトライしてしまうのもLong-running taskの実装では重要なヒューリスティックになる可能性があります。

検証器に求められる「正誤判定」の質

次に紹介するのは、On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks (Kaya Stechly et al.)です。2024年2月の論文で、検証しているモデルもGPT-4と、現在の最新モデルと性能に大きな差があるので、少し割り引いて結果を解釈する必要があるのですが、内容はとても興味深いです。

先ほどの論文では、各ステップの成功確率を上げるためにFirst-to-ahead-by-k Votingやヒューリスティックな誤り検知を採用していましたが、こちらの論文では、LLMによる自己批判と、信頼できる検証器によるフィードバックでLLMが再考することの効果を検証しています。特に信頼できる検証器とは何なのか、具体例があったほうがわかりやすいので本論文で扱っている3つの題材「Game of 24」、「グラフ彩色」、「STRIPSプランニング」で紹介します。

Game of 24は、4つの数字を括弧と基本的な算術演算(加算、乗算、減算、除算)で組み合わせ、計算結果が24になる式を作る数学パズルです(個人的には車のナンバーを四則演算で10にする問題を暇つぶしでやったりします)。LLMによる自己批判は、提示された式が正しいかをLLMに判断させます。信頼できる検証器は、Pythonで24に等しいかどうかを検証させます。プログラムで計算するだけなので、24に等しいかどうかをbooleanで確実に判定できます。

グラフ彩色問題は、エッジで結ばれた隣接するどの2つの頂点も同じ色にならないように、各頂点にn色のうちの1色を割り当てる問題です。こちらもLLMには同じ色になっていないかを判定させます。信頼できる検証器は、すべてのエッジの色を確認するだけで、Game of 24と同じく機械的な正誤判定が可能です。もし、結ばれている2つの頂点が同じ色であるエッジが一つでも存在すれば不正解と判断できます。

STRIPSプランニング(Blocksworld, Mystery Blocksworld)は、離散的で決定論的な空間で実行できる計画を自動立案するものです。こちらはPDDLという計画立案用の言語を用いて、前提条件に違反することなく初期状態から実行でき、最終的にゴールに到達できる一連のアクションとして記述されます。こちらはアクションを順番に実行し、ゴールに到達できるかを検証しています。

本論文では、これら3つの題材について、n=100で検証を実施しており、結果は以下です。S.P. (Standard Prompting) が標準的なプロンプトで自己批判なしに実行された結果で、ベースラインになるものです。LLM+LLMがLLMによる自己批評です。LLM+Sound Critiqueが上記の「信頼できる検証器」によるもので、B.F. (Binary Feedback)が正解・不正解のフィードバック、F.E.F. (First Error Feedback) が最初にエラーが発生したもののみをフィードバック、A.E.F. (All Error Feedback) が誤りがあったすべてをフィードバックするものです。

(論文より引用)

S.P.とLLM+LLMを見比べると、むしろLLMによる自己批判は悪影響となっていることがわかります。GPT-4でモデル自体の性能が低いことも多分に影響していると思われますが、自己批判そのものが正しくない場合、せっかく正しい回答が出力されていたのに批判することでかえって誤りを導いてしまうようです。また、誤解を招くようなフィードバックを生成することもあり、結果的に再考で正解から遠ざかってしまうことがあるとのことでした。

また、B.F., F.E.F, A.E.F.を見ると、二値のみのフィードバックと内容を含めたフィードバックでは、Blocksworld以外ではさほど差はなく、フィードバックが最初のエラーのみと全てのエラーかでも、全てのエラーのほうがむしろ性能が低下していることがわかります。

注意点として、Game of 24とBlocksworldでは、検証器としてのLLMの精度はそれなりに高く、結果としてLLM+LLMの性能低下が低く抑えられたのではと考察されています。これらを踏まえると、LLMかどうかが課題というよりは、正しいか正しくないかを正確に判定できることが重要、かつ、その中身は問わない(具体的なフィードバックであることよりも誤っていることを正しく誤っているとフィードバックできることが重要)ということが言えそうです。

また、反復回数とパフォーマンスについての結果も述べられています。

(論文より引用)

各色ごとに、信頼できる検証器が▲、LLMによる自己批判が●でプロットされていますが、▲が試行を繰り返すことで性能が上がっていくのに対し、●はむしろパフォーマンスが崩壊してしまっており、LLMによる自己批判がマイナスの結果となっています。

相互一致による正しい回答の判定

上記の論文で正しいか正しくないかを正確に判定できることが重要ということがわかりましたが、現実の問題は上記3つの題材のようにルールベースで正しいか判定できない問題もあります。そこで次に紹介したいのが、Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers (Zhenting Qi et al.)です。こちらも2024年8月の論文のため、少し古い点は留意が必要なのですが、アイデアがおもしろかったので紹介します。

こちら論文のモチベーションは、LLMというより、SLM(Small Language Model)を活用することにあります。ただ、SLMは多くの試行を繰り返しても、低品質な推論ステップを含む解空間に陥りがちで、どの最終回答が正しいかを判断することは難しいというissueが述べられています。1つ目に紹介した論文のFirst-to-ahead-by-k Votingもを前提としているので、SLMがこの前提を満たせないとなると、複数回実行しても各ステップが正しい回答にたどり着けなくなってしまいます。

論文では、rStarという手法を提案しており、これは推論ステップをモンテカルロ木探索する手法をベースに相互一致プロセスで拡張しています。具体的には、サンプリングされた部分的な推論軌跡を2つ目のSLMに提示し、残りの推論ステップを完了させるよう促し、rStarは相互に一致した回答に導かれた推論軌跡を高品質であると判断するものです。また、推論ステップが取りうるアクション空間は以下5つとなっています。

A1: 1ステップの思考を提案

A2: 残りの思考ステップを提案

A3: 次の部分問題とその回答を提案

A4: 部分問題に再度回答

A5: 問題/部分問題を言い換え

具体的なイメージとしては以下の例がわかりやすいです。

(論文より引用)

この論文は実験結果というよりアイデアがおもしろいので実験結果は省略しますが、複数のSLMが別の軌跡で導いた回答が一致するのであれば、正解の可能性が高いという直感を反映した手法で、応用可能性を感じました。

最後に

ということで、Long-running taskのスケーリング則から、単一ステップの成功確率を上げるために信頼できる検証器や相互一致による判定に関する論文を紹介しました。LLM-as-a-Judgeやアンサンブルによる多数決といった手法はよく見かけますが、それ以外の手法も提案されており、とても興味深い分野です。実務にLLMを組み込もうと思うと、正解が定義できるユースケースほど、精度に苦しむシーンは多いので、今回紹介した内容が何かのお役に立てば嬉しいです。

また、LayerX Ai Workforce事業部では各方面のポジションで採用を行っております。ご興味がありましたら、ぜひお気軽にお声掛けください。

jobs.layerx.co.jp

この記事をシェア

関連記事

The Register AI/ML★42026年4月28日 01:20

AIの現実検証:3社がウォレット、住宅、ゲーム構築で学んだこと

シティ、ホームデポ、カプコンの経営陣は、AIエージェントが実験ツールから顧客対応業務へ移行する過程で得た知見を語った。次なる課題は、金銭や創造的出力に関わる際のガバナンスと信頼性の確保である。

The Decoder★42026年4月25日 19:18

アンストロピック「強力なAIモデルはより良い取引を実現し、劣るモデルを使う利用者は気づかない」

アンストロピックは社内市場で69のAIエージェントに取引をさせ、強力なモデルがより良い結果を出した。利用者は劣るモデルの差に気づかず、AIの実取引化は経済格差を拡大させる可能性がある。

The Verge AI★32026年4月24日 07:27

ClaudeがSpotifyやUber Eatsなどの個人アプリに直接接続

AnthropicはClaudeがSpotifyやUber Eats、TurboTaxなどの個人アプリに直接接続できる新機能を提供した。これにより、ユーザーはハikingから grocery shopping まで多様なサービスを利用可能になる。

ニュース一覧に戻る元記事を読む