長期実行エージェントの研究プレビューを拡大
Cursorウェブアプリで、Ultra、Teams、Enterpriseユーザー向けに長期実行エージェントが利用可能になりました。
キーポイント
Cursorが長期間自律動作するエージェントの研究プレビューを全有料ユーザーに公開
従来のエージェントでは困難だった大規模・長時間タスク(36時間の開発など)を成功させた実績を報告
計画承認プロセスと複数エージェントによる相互チェックという新たなアプローチで、フロンティアモデルの限界を克服
研究プレビュー参加者による大規模リファクタリングや複雑システム構築などの成功事例を提示
影響分析・編集コメントを表示
影響分析
この発表は、AIエージェントが単発タスクから数日単位の大規模開発プロジェクトまで自律的に実行できる可能性を示した。開発者ツールの進化だけでなく、AIエージェントの実用性と信頼性を大幅に向上させる重要なマイルストーンであり、ソフトウェア開発のワークフローそのものを変革する可能性がある。
編集コメント
「計画してから実行」という人間的な開発プロセスをAIエージェントに組み込んだ点が画期的。36時間連続動作の実例は、AI開発支援ツールの新たな地平を示している。
要約:長期実行エージェントの研究プレビューを拡大
Cursorは、より野心的なプロジェクトを自律的に実行するエージェントに関する研究の成果として、「長期実行エージェント」の研究プレビューを、Ultra、Teams、Enterpriseの全ユーザーが利用できるようにした。これは、先月共有された「Cursorがウェブブラウザを構築した方法」といった研究に基づくものである。
研究過程では、最先端のAIモデルが長期的なタスクで予測可能な失敗をすることが観察された。この限界を克服するため、エージェントがより困難な作業を引き受け、完了まで遂行できるようにする「カスタムハーネス(制御・支援フレームワーク)」を開発した。
先週リリースされたこのハーネスの初期版を用いた研究プレビューの結果、長期実行エージェントは、他のエージェントと同等以上のマージ率を維持しながら、大幅に大規模なプルリクエスト(PR)を生成できることが示された。
研究プレビューの参加者からの報告によれば、長期実行エージェントは従来のエージェントでは達成困難だった多様なタスクを成功させている。具体的な実行例としては、既存のオープンソースツールと統合した全新規チャットプラットフォームの構築(36時間)、既存ウェブアプリを基にしたモバイルアプリの実装(30時間)、認証とRBACシステムのリファクタリング(25時間)などが挙げられる。
困難なタスクを成功させるには、最先端モデルの知能と適切なハーネスの両方が必要である。Cursorはあらゆる最先端モデルと協働し、それぞれにカスタムハーネスを構築することで、各モデルの強みを活かす最良の支援環境を提供するユニークな立場にある。この取り組みから、性能向上に寄与するいくつかの一般原則が見出された。
第一に、計画と承認のプロセスである。Cursorの長期実行エージェントは、すぐに実行に移るのではなく、まず計画を提案し承認を待つ。これにより初期段階での方向性の一致を図り、後の手直しを減らす。モデルが単独で大規模タスクに取り組む場合、初期の小さな誤った前提が最終的には完全に間違った解決策につながるリスクがあるため、このアプローチが特に重要となる。
第二に、計画の遵守と相互チェックの仕組みである。最先端モデルは優れたコードを書けるが、タスクの全体像を見失ったり、作業の途中で止まったりすることが多い。長期実行エージェントは、計画に沿って動作し、複数の異なるエージェントが互いの作業をチェックする仕組みを用いることで、大規模で複雑なタスクを最後までやり遂げることを可能にする。
研究プレビューの初期参加者らは、この長期実行エージェントを用いて、大規模な機能実装、複雑なシステムのリファクタリング、困難なバグ修正、パフォーマンスの大幅改善、高カバレッジのテスト作成などを行った。エージェントはしばしば1日以上実行され、最小限の手直しでマージ可能なPRを生成したため、ユーザーは他の作業に集中したり、離れたり
原文を表示
Blog / productCursor's long-running agents research preview is now available at cursor.com/agents for all Ultra, Teams, and Enterprise users.
The long-running agent is the result of our research on agents working autonomously on more ambitious projects, including the work we shared last month on how Cursor built a web browser.
During that experiment, we saw frontier models fail in predictable ways on long-horizon tasks. We addressed these limitations by creating a custom harness that enables agents to take on more difficult work and see it through to completion.
We released a version of this harness last week as part of a research preview. The results show that long-running agents produced substantially larger PRs with merge rates comparable to other agents.
Talking with participants in our research preview, we heard that long-running agents successfully completed a range of tasks that were previously out of reach for agents. A few example runs from the research preview include:
Building an all-new chat platform integrated with an existing open-source tool (runtime: 36 hours)
Implementing a mobile app based on an existing web app (runtime: 30 hours)
Refactoring an authentication and RBAC system (runtime: 25 hours)
Successfully completing difficult tasks requires frontier intelligence and the right harness. By working with every frontier model and building a custom harness for each, we are in a unique position to build the best scaffolding that leverages the strengths of different models. We found that there are a couple general principles that help us achieve better performance.
When iterating directly with a model, tight prompt-response loops let you monitor the agent and nudge it back on course when needed. When the agent goes off and works on a larger task autonomously, a slightly wrong assumption can turn into a completely incorrect solution by the end.
Long-running agents in Cursor propose a plan and wait for approval instead of immediately jumping into execution, recognizing that upfront alignment reduces the need for follow-ups.
Frontier models can write great code, but often forget the big picture of their task, lose track of what they're doing, or stop at partial completion.
Long-running agents use a plan and multiple different agents checking each other's work in order to follow through on larger, more complex tasks.
Initial participants in the research preview used long-running agents to implement large features, refactor complex systems, fix challenging bugs, overhaul performance, and create high-coverage tests.
I shipped two architecture overhauls. It's an incredible tool for "I don't know if this is possible but I'm curious to see" type work. I can run five in parallel, for everything from creating Mac window managers to stuffing CEF into Tauri.
Agents commonly ran for more than a day, producing PRs that merged with minimal follow-up work. Users could step away, focus on other work, close their laptop, and come back to working solutions.
I planned for this project to take an entire quarter to accomplish. With Cursor long-running agents, that timeline compressed to just a couple days. And I could do two or three additional projects. I can kick-off a 52-hour task that I don't have to babysit and come back to a big PR with 151k lines of code.
Compared to synchronous agents, long-running agents were more thorough in their approach and wrote code that was more production-ready.
The magical part of the new harness is allowing the same model to make something production-ready. I tested the same bug-fix prompt locally vs. with a long-running agent, both with Codex 5.3. The local agent fixed it fairly quickly, but the long-running one went further to find edge cases, fix similar occurrences, and create high-coverage tests.
#Using long-running agents at Cursor
For the last month, we've been testing the limits of long-running agents internally. We’ve used them for experiments to see how far we could push them, as well as for production work on Cursor itself. Here are a few tasks we gave long-running agents that we have since merged.
We asked an agent to optimize a video renderer whose performance was bottlenecking deployment. It completed a full migration to Rust and implemented custom kernels, reproducing identical visual output by working purely from the original logic.
Policy-driven network access for sandboxed code
We needed JSON-driven network policy controls and a local HTTP proxy for sandboxed processes. The proxy needed to be correct across protocols, enforce policy consistently, and fail safely without allowing blocked traffic. The long-running agent created a ten-thousand line PR that had very few issues when we ran a large test suite against it. Follow-up work consisted mainly of changes we didn't specify in our initial request.
Some tasks break CLI agents the moment they hit sudo, especially tasks related to system administr
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み