#自律実行のAIニュース

5件の記事

AIエージェントの成功率向上策：長時間タスクにおけるスケーリング則と検証器の役割

METRの調査によると、最新のClaude Opus 4.6は10時間タスクを50%の確率で完了可能だが、長時間タスクでは各ステップの成功率向上や失敗復帰の仕組みが必要である。

AnthropicはClaude Codeの新機能「自動モード」を発表し、AIが承認を減らしてタスクを実行できるようにした。これは、組み込みの安全策で速度と安全性のバランスを取る自律的ツールへの移行を反映している。

著者は、これまでのAIがテキスト入出力に依存していたが、実際のソフトウェアは実行（計画立案、ツール呼び出し、ファイル修正、エラー回復など）を必要とすると指摘。GitHub CopilotのようなIDE内AIの限界を超え、実行可能なAIシステムへの移行を主張している。

Anthropicは、人間のようにアプリ内タスクを実行できるコンピューター利用エージェントを開発したVerceptを買収。Metaによる共同創業者の引き抜き後に行われた。

GitHub Copilot CLIが有料購読者向けに一般提供開始。コマンドラインでAI支援によるコーディングが可能に。