非同期エージェントの時代 — Cognition のワルデン・ヤン氏と OpenInspect のコール・マレー氏
Cognition の Walden Yan と OpenInspect の Cole Murray は、AI エージェントが「同期」から「非同期(Async)」へ移行し、開発者のローカルワークフローに依存しないエンドツーエンドの自律型開発へと進化する時代に入ったと分析している。
キーポイント
非同期エージェント時代の到来
2024 年の予測通り、モデルの信頼性向上により、AI エージェントは人間が常時監視する「同期」プロセスから、自律的に実行される「非同期」プロセスへと移行している。
開発ワークフローの変遷
第 1 波の補完ツール(Copilot, Cursor のタブ)と第 2 波のローカルエージェントを経て、現在はエージェントのオーケストレーションによるエンドツーエンドの開発が主流になりつつある。
Cognition の急成長と市場評価
DIY フレームワークや他社の競争がある中、Cognition はシリーズ D で 10 億ドル超の調達を成功させ、企業利用が前年比 10 倍に拡大し、年間収益率が 4.92 億ドルに達している。
開発フローの転換:背景エージェントへの移行
AI ツールはコード記述から、開発者がファクトリー(エージェント群)を管理し、指示を与えて独立して作業させる「ファクトリー構築」へと役割を変化させている。
December 2025 のモデル転換点と実用化
2025 年 12 月のモデル性能向上により、仕様書からプルリクエスト(PR)までのワークフローが現実的な生産環境として確立され、Cognition ではコミットの 80% がエージェントによって行われるようになった。
アーキテクチャとセキュリティの重要性
「脳」と機械を分離する設計や、フル VM、スナップショット、スコープされたシークレットなどのインフラ整備が、背景エージェントの安全かつ効果的な運用に不可欠である。
完全な仮想環境とテストの難しさ
エージェントがリアルなアプリケーションを実行・テストするためには、Android や macOS などのフル VM 環境が必要であり、単なる「コンピュータ使用」よりも複雑な検証プロセス(スクリーンショットや動画による確認)が不可欠である。
影響分析・編集コメントを表示
影響分析
この記事は、AI エンジニアリングの未来像が「人間による細かな指示と監視」から「自律的な非同期実行」へと根本的に変化していることを示唆しており、開発現場のワークフロー再設計や人材育成の方向性を決定づける重要な転換点である。特に Cognition の劇的な成長は、AI エージェントが単なる実験段階を超え、実ビジネスで高収益を生む製品として定着したことを裏付ける証拠となる。
編集コメント
「非同期エージェント」という概念が、単なる技術用語ではなく業界の標準的なワークフローとして定着しつつあることを示す重要な分析です。開発者の役割変化と Cognition の成功事例は、今後の AI エンジニアリング戦略を考える上で極めて参考になります。
新しい AIEWF ウェブサイトが公開されました!提案募集(CFP)の締め切りはあと 2 日です。今週末に最初の新人エンジニア向けオリエンテーションを開催します。チケットはすぐに完売する見込みですので、お早めに確保してください。AI エンジニアリング調査に参加すると、2,000 ドル以上のクレジットと無料の AIE WF チケットが手に入ります!
エージェント業界における中心的な緊張関係の一つは、Sierra、Decagon、Notion、Cursor といった主要なユニコーン(またはデカコーン)レベルのエージェントラボが構築されている一方で、LangGraph や Pydantic、Flue といった多数のエージェントフレームワークや、Anthropic、Gemini、Amazon が提供するマネージドエージェントを利用すれば、これまでになく容易に個人でエージェントを構築できるという事実です。Shopify から Stripe、Paradigm、Razorpay まで、多くの企業が独自のバックグラウンドエージェントの構築を進めており、Cognition の友人である Ramp でさえも、もう一人の友人である Modal と協力して独自のコーディングエージェントを開発しています。
Cognition が少し脅威を感じてもおかしくないと思うかもしれませんが、彼らはそうではありません。むしろ、これらの動きがあるにもかかわらず、直近で発表した 10 億ドル規模のシリーズ D ラウンドに対しては大幅な過剰申込がありました:
@Lux_Capital、@generalcatalyst、そして @8vc。
今年初め以来、当社のエンタープライズ利用は 10 倍以上に成長し、年間換算収益は 4 億 9200 万ドルに達しました。
私たちは 2 年前に Devin を立ち上げました。これは初の AI ソフトウェアエンジニアです。以来、「
最初の AI コーディングツールの波は開発者を高速化しましたが、依然として人間の関与が強く求められました。Copilot や Cursor のタブ補完機能がその好例です。しかし、ワークフローは依然として開発者のローカル環境に中心を置き、ボトルネックとなっていました:IDE 内の開発者がモデルを見守り、変更を受け入れまたは拒否し、1 つのインタラクションごとにコードをプッシュするという流れでした。
第二波はローカルエージェントでした。Claude Code、Windsurf、Cursor のエージェントパネルなどです。これらは最初の一つから始まり、現在はますます多くのターミナルが並行して実行されるようになりました。
現在の非同期エージェント(Async Agents)の時代は、エンドツーエンドの開発を推進するエージェントのオーケストレーションに焦点を当てた異なる未来を示しています。
過去のゲストである Steve Yegge によると、エージェント導入にはより微細な 8 つのレベルが存在しますが、私たちはそれを 3 つに集約しました。
Cursor の Michael Truell が『AI ソフトウェア開発の第三の時代』で述べたように:
Cursor はもはや主にコードを書くためのものではありません。それは、ソフトウェアを作成するファクトリーを構築する開発者を支援するためのものです。このファクトリーは、チームメイトとして対話するエージェントの艦隊によって構成されています:初期の方向性を提供し、独立して作業できるためのツールを整備し、その成果を検証します。

エージェントは開発者のフローの中にのみ存在してはいけません。背景で動作するように設定し、タスク、リポジトリ、マシン、シェル、ブラウザ、テスト、メモリ、レビューループなどを任せて、別の場所で作業を行わせるようにする必要があります。
1 年未満の間に、マルチエージェントシステムを避けるという感情から、実際に機能するアプローチを提案するという方向へシフトしました:
「コンテキストエンジニアリング」という用語を生み出し、Devin の PR 成長率を 7 倍にし、Cognition リポジトリ全体のコミットの 16% から 80% へと引き上げるインフラストラクチャの構築に関わった Walden Yan は、背景エージェントへの移行という変化を最前列で目撃してきました。このエピソードでは、Cognition の共同創設者であり CPO(Chief Product Officer)である Walden Yan が、swyx と OpenInspect のクリエイターである Cole Murray とともに、なぜ誰もが自分たちの Devin を構築しようとしているのか、2025 年 12 月のモデルの転換点以降何が変化したのか、そして「仕様からプルリクエストへ」というワークフローが実際に生産環境で実現されつつある理由について掘り下げていきます。
背景エージェントのアーキテクチャについて深く掘り下げます。箱詰め型(harness-in-the-box)と箱外型(out-of-the-box)の違い、なぜ Devin が「脳」をマシンから分離するのか、なぜリポジトリ設定が依然として最も困難な問題の一つなのか、なぜ Docker だけでは不十分な場合があるのか、そして完全仮想マシン、スナップショット、スコープ付きシークレット、GitHub ボット、Slack 連携、ビデオベースのテストがどのように統合されるかについて解説します。また、ワルデンとコールは、メモリ、MCP(Model Context Protocol)の制限、マルチエージェントオーケストレーション、AI コードレビュー、SRE の自動トリアージ、Slack からコードをリリースするプロダクトマネージャー、Windsurf 2.0、ハイブリッド型フロンティア/サブフロンティアシステム、そして制御されない「バイブコーディング」の真の失敗モード——つまりコードベースが最悪のエンジニアの状態へと後退すること——についても議論します。
エージェントがソフトウェアを食い、ソフトウェアが世界を食む中で……次に来るものについて結論を引き出すことができます:
私たちが議論する内容:
なぜエンジニアリング界が背景エージェントとクラウドエージェントに目覚めつつあるのか
仕様から PR(プルリクエスト)ワークフローを実用的なものにした 2025 年 12 月のモデルの転換点
Devin のマージ済み PR が 7 倍に増加し、コミットの割合が 16% から 80% に上昇した理由
なぜコールは OpenInspect をオープンソースの背景エージェントシステムとして構築したのか
$20/seat のエージェント製品の経済性と、なぜ収益化が難しいのか
Devin 以外で Cognition が実際に販売しているもの:インフラ、オンボーディング、統合、および採用
箱詰め型と箱外型の違い、そしてアーキテクチャがなぜ重要なのか
セキュリティと権限のために Devin が「脳」をマシンから分離する理由
リポジトリ設定、スコープ付きシークレット、Docker Compose、エージェント対応の開発環境
エージェントが実際のアプリケーションを実行してテストする必要がある際に、完全な仮想マシン(VM)がなぜ重要なのか
Android、macOS、Windows、ネスト型仮想化、および機械固有のエージェント作業
「コンピュータ操作」よりもはるかに難しいテストの理由
スクリーンショット、動画検証、そして「動作確認済み」というマージの瞬間
GitHub の UX、Devin Review、AI レビューアー、PR コメントへのエージェントの対応
MCP だけでは一流の Slack やエンタープライズ統合には不十分な理由
メモリ、知識、スキル、Claude.md、そしてなぜ検索(Retrieval)はまだ未解決なのか
Devin が自動生成するメモリーと、メモリの剪定(Pruning)における課題
常に稼働中のエージェントが、イシュー、チケット、製品領域の恒久的な PM として機能すること
サブエージェント、メタ-Devin の管理、そしてマルチエージェントシステムが実際に付加する価値とは何か
純粋な自動マージ志向のコーディングが約 2 週間後に崩壊してしまう理由
AI コードスメル、リントレール、報酬ハッキング、およびエージェントが記述したコードのための Semgrep
GitAI、インラインコンテキスト、そしてコード変更の背後にある「なぜ」を保持すること
ローカルテスト、モックサーバー、古いコードベース、そして企業におけるエージェントへの準備
Windsurf 2.0 と、ローカルのフォアグラウンドエージェントとクラウドのバックグラウンドエージェントとのハンドオフ
SRE の自動トリアージ、サポートワークフロー、およびファーストレスポンダーとしてのエージェント
PM、マーケティング担当者、そしてエンジニア以外の人間が Slack からプルリクエストを作成すること
AI エージェントの予算、エンジニアあたり 1,000 ドル〜5,000 ドルの支出、そしてハイブリッド型フロンティア/サブフロンティアシステム
自律的なコーディングファクトリーの台頭と、Cognition が採用している人材
Walden Yan
X: https://x.com/walden_yan
LinkedIn: https://www.linkedin.com/in/waldenyan/
コール・マレー
X: https://x.com/_colemurray
LinkedIn: https://www.linkedin.com/in/colemurray/
OpenInspect / バックグラウンドエージェント:https://github.com/ColeMurray/background-agents
タイムスタンプ
00:00:00 イントロダクション
00:00:43 なぜ誰もが自分専用の「Devin」を構築しようとしているのか
00:01:57 Devin の 2025 年における急成長:PR(プルリクエスト)が 7 倍に、コミットの 80% を占める
00:03:49 OpenInspect とオープンソースのバックグラウンドエージェントの台頭
00:07:59 Cognition が Devin 以外で実際に提供しているもの
00:09:56 バックグラウンドエージェントのアーキテクチャ:Harness のイン vs アウトオブザボックス
00:12:08 「脳」と「機械」の分離
00:14:07 リポジトリ設定、シークレット、Docker、そして完全な仮想マシン(VM)
00:19:13 なぜテストはコンピュータ操作よりも難しいのか
00:22:40 動画検証と「動作確認済み」としてマージされる瞬間
00:23:19 GitHub の UX、Devin のレビュー、そして AI コードレビュー
00:25:42 MCP(Model Context Protocol)、Slack、およびエンタープライズエージェントの統合
00:28:59 メモリ、ナレッジベース、そして常時稼働型エージェント
00:36:16 サブエージェント、マルチエージェントオーケストレーション、そしてメタ・Devin
00:43:55 バイブコーディング、自動マージ、およびコードベースの劣化
00:48:38 エージェントインフラ、VPC(仮想プライベートクラウド)、クラウドプロバイダー、および高速な VM 復元
00:52:25 AI コードスモル(コードの匂い・問題点)、報酬ハッキング、そしてコードレビューシステム
00:56:10 コードベースをエージェント対応にするための取り組み
00:58:30 Windsurf 2.0 とローカルからクラウドへのハンドオフ
01:01:15 SRE(サイト信頼性エンジニア)の自動トリアージ、PM(プロダクトマネージャー)によるコードリリース、およびエージェント活用事例
01:04:32 エージェント予算、ハイブリッドモデル、そして自律型コーディングファクトリー
01:06:51 Cognition での採用と OpenInspect のコンサルティング
01:07:45 アウトロ
導入:ワルデン・ヤン、コール・マレー、そしてコンテキストエンジニアリング
Swyx [00:00:00]: それでは、スタジオには Cognition の共同創設者兼 CPO のワルデン・ヤンをお迎えしています。
Walden [00:00:08]: ここにお招きできて光栄です。
Swyx [00:00:09]: 素晴らしい肩書きですね。また、コンテキストエンジニアリングという用語の考案者でもあります。
Walden [00:00:15]: 確かに以前から様々な形でこの言葉を使っている方は多くおられますが、私が見たところでは、プロンプトエンジニアリングやモデルのラッピング(wrapping)から、より考え抜かれたエージェント構築への移行として、社内・社外を問わず人々がその向上に喜びを感じてくれたようです。
Swyx [00:00:33]: その点についてまだ把握されていない方のために、画面には「マルチエージェントは作らないで」という投稿を表示しています。ぜひお読みいただき、後ほど参照させていただく予定です。また、OpenInspect を作成されたコール・マレーもいらっしゃいます。
Cole [00:00:43]: ここにお招きできて光栄です。
Swyx [00:00:43]: それでは話し始めましょう。皆それぞれ独自の「Devin」を作ろうとしています。何が起きているのでしょうか?
12 月の転換点:モデルの手取り足取りから自律的な PR へ
Cole [00:00:51]: つまり、エンジニアリングの世界は、バックグラウンドエージェントやクラウドエージェントなど、どのような呼び方をするにせよ、この考え方に目覚めつつあると思います。2025 年 12 月頃を境に大きな転換点がありました。Opus 4.5 や GPT 5.2 というモデルが、人間が手取り足取り教える必要なく、ほぼ自律的にモデルを駆動できるレベルの能力に到達したのです。私がここで言いたいのは、仕様書さえ十分に良ければ、ほとんど摩擦なく仕様の記述から完了したプルリクエストまでを一貫して作成できるようになったということです。このパラダイム自体が、私たちがエージェントとどのように関わるかというあり方を大きく変え、バックグラウンドエージェントが実用的になる世界へと扉を開いたと考えています。
Swyx [00:01:41]: Cole にとっては皆が 12 月にその体験をしたのだと思いますが、私には単なる急激な上昇曲線のように感じられます。特に Sonnet 3.7 の登場がその瞬間だったと思います。皆さんが一晩で Devin を書き直したとかいう話もありますよね。2025 年を、あるいはご自身の立場からどう感じたかを説明してください。
Walden [00:02:01]: 振り返ってみると、私たちは常に加速していると考えていましたが、今日から過去 3〜4 ヶ月にかけても、さらに急速に加速しています。そのため、Sonnet 3.7 がどれほどの飛躍だったかを語るのも少し皮肉な話ですが、正直なところ、その知能の向上に伴い、Devin の不要になった部分を削ぎ落としたことが大きな要因でした。しかし、私は最近の飛躍、特に Opus や最新の GPT モデルのようなモデルを見ると、人々が実際に手をかけずに運用できるレベルに達していると感じています。かつては「IDE でモデルを深く掘り下げる必要があるのか?それとも完全にクラウドに移行してしまえるのか?」と議論していた人々にとって、これはより真剣な対話となり、私たちの成長チャートすべてでその傾向が確認されています。社内部では面白いグラフがあり、PR(プルリクエスト)の件数やマージされた PR の数が、何と呼ばれていたか忘れましたが、7 倍に増加しています。
Swyx [00:02:57]: Dev がそれをツイートしたのかもしれませんね。はい。
Walden [00:03:01]: 過去 2〜3 ヶ月(正確な期間は覚えていませんが)で約 7 倍に成長しました。そして、エンジニアリング部門の人員増加も見てみると、10% 程度増えています。
Swyx [00:03:11]: 私たちはこのリリースを恐れていました。Devin の全リポジトリにおける Devin コミットの割合は、1 月は 16% でしたが、現在は 3 月に 80% に達しています。
Walden [00:03:25]: 今まさに大きな転換期にあります。そのため、多くの人が Devin を検討したり購入したりする一方で、自分たちで構築しようとも考えているのは当然のことです。私は Devin の構築に非常に楽しさを見出しており、他の人々も独自のクラウドエージェントを構築したいと思う理由が理解できます。マット、では、OpenInspect の構築を試みようと思った当初のインスピレーションは何だったのか、お聞きするのは良いことかもしれません。
OpenInspect: Ramp, Cloud Agents, and Open Source
Cole [00:03:49]: OpenInspect は、主に私のクライアントたちが Claude や当時 OpenAI の Codex といったツールをどのように使用しているかを観察し、そこで生じていたいくつかの摩擦に直面したことから生まれました。特に Claude は Slack を通じて利用されており、大きな問題として、Slack で誰かが呼び出したセッションがその人に限定されてしまうという点がありました。つまり、PM がセッションを開始した場合、エンジニアに文脈を引き継ぐ際にそのセッションを見ることができないのです。これは決定的な欠陥でした。なぜなら、PM が「エンジニアの皆さん、参加してください」と言っても、コピー&ペーストするか、返ってきた単一のレスポンス以外には参加する対象がないからです。これらの問題を目にして私は、ローカルホストからの移行というトレンドが始まりつつある中で、異なるアイデアを実験・検証するために内部で同様のアーキテクチャを構築しました。そして Ramp がブログ投稿を発表した際、このプロジェクトに必要な要素の多くはすでに整っており、単にそのブログ記事から Claude ができることを試してみるのが面白いだろうと考えました。私の X アカウントには、GPT と Claude の両者がこれらを検証している最中に行っていたライブツイートがスレッドとして残っています。
Cole [00:05:14]: GPT と Claude を比較しています。
Swyx [00:05:17]: 発表に関する件でしょうか、それとも別の話題ですか?
Cole [00:05:19]: リリース直後でした。ショーンノートに載せておきましょう。はい、システムを検証する方法をすでに知っていたのは役立ちました。何を求めているかを知っていました。Ramp は、何かを構築する技術的な側面を本当に示すことに素晴らしい仕事をしたと思います。単に「私たちは素晴らしいシステムを構築しました」というだけでなく、「あなたもこうやって構築できます」という内容でした。そのため、私がすでに見ていた問題点と強く共感し、周囲を見渡しても、この種のシステムを満たすオープンソースコミュニティのものはあまり見当たりませんでした。Superset や Conductor など、ローカルホストで動作するものはたくさんありますが、実際にクラウド上で動作しているものは何もありませんでした。そこで私はそれを構築し、誰でもその上に組み合わせて使える基盤として利用できるようにするためにオープンソース化することに興味を感じました。
背景エージェントのビジネス:オープンソース対 Devin
Swyx [00:06:16]: つまり、Devin が発売された直後に OpenDevin が登場し、それが All Hands になりました。あなたがそれを試したかどうかはわかりませんが
Walden [00:06:22]: 私は言おうとしていたのですが、OpenInspect に私が非常に興味を持った点の一つは、それを収益化しようとするものに変えようとしなかったことです。多くのオープンソースプロジェクトが、その後実際に資金調達を試みる傾向があると思います。
Swyx [00:06:36]: それが OpenDevin がない理由です。はい。
Walden [00:06:38]: はい、その点についてどうお考えですか?非常に興味深いと思いました。
Cole [00:06:44]: 私がクライアントたちを通じて見てきたのは、バックグラウンドエージェントシステムが各社内で重要なインフラストラクチャ(infrastructure)になっていくということです。そのため、これをオープンソース化して、誰でもフォークし、必要なカスタマイズを施せるようにしたいと考えました。ただ、この質問に対しては常に「資金調達するのですか?これをサービス化する予定ですか?」と聞かれます。
Walden [00:07:08]: きっとオファーもいただいているでしょうね。
Cole [00:07:09]: しかし、主にそれをしない理由はいくつかあります。第一に、1 セットあたり 20 ドルという価格帯で競争したくないからです。これは非常に難しいビジネスモデルだと考えています。主要な部分はすぐにコピーできてしまうのも容易です。私がこのシステムを比較的短期間で構築したことも一因でしょう。また、スタック全体を所有していないため、収益化が難しいのです。Daytona や E2b など多くのプレイヤーがいるサンドボックス層では収益が発生しており、モデル層でも収益が上がっています。私たちはその間の曖昧なグレーゾーンに位置し、実際に何を販売しているのかという問いに直面します。おそらくインフラストラクチャを販売しているのでしょう。あるいは、統合機能(integrations)かもしれません。
Swyx [00:07:55]: 本人に聞いてみましょう。あなたは何を販売しているのですか?
Walden [00:07:59]: はい、実際にはこれには複数の層があります。実はインフラについて言及されたのが面白いのですが、Devin の構築を始めた際も、インフラ自体をどう作るかを考えなければならなかったからです。
Swyx [00:08:10]: 他の誰よりも 2 年も早くこれを構築する必要があったのですか?
Swyx [00:08:15]: モデル側を含めてです
Walden [00:08:17]: 当初は非常に完成度が高くなく、EC2 などのクラウドプロバイダーから提供される生(raw)の仮想マシン(VM)をそのまま利用して構築していた頃は、起動に非常に時間がかかりました。特に、その当時はマシンを停止し、保存しておき、後で Devin を再び起動させたい時に再起動させるというプロセスが課題でした。システムがそのような頻繁な停止と再起動を想定して作られていなかったため、Devin が再び目覚めるまでには約 10 分間も完全にシャットダウンした状態(out cold)が続いてしまうのです。そのため、私たちは実際にこれらの対応をすべて行わなければなりませんでした。
その結果として現在、私たちが Devin を企業に販売する際にお約束していることのひとつは、計算リソースに関するすべての側面についてお客様が心配する必要がないということです。私たちがそれを機能させます。ご希望であればお客様のクラウド環境でも動作するようにします。
製品の話に戻り、後ほどエージェントや知能部分のチューニングについても触れたいと思いますが、Cognition として私たちが行うことの大きな部分は、貴社がこのコーディングエージェントを学び、使用し、導入することを確実にすることです。特に世界最大の企業においては、日常業務に AI を活用したいと考える人が非常に多いことがわかります。しかし、プロジェクトの計画方法や、すべての人がこのような形で AI を使いこなせるわけではないという事情から、実際に現場に入り込み、必要な統合設定を行い、AI の活用レベルを最大化するために必要な自動化を実現し、オンボーディング(導入支援)を行うエンジニアチームを持つことは、極めて有益です。
そのため、私たちはその支援を行っています。また、私たちが連携する顧客に対して、思考のパートナーとしての役割も果たしています。
Swyx [00:09:56]: それでは、アーキテクチャの話について語りましょう。これはいつも、お二人の間での会話のトピックだったと思います。まずはどのようなメンタルモデルから始めるか、あるいは別のアプローチか。私は皆様に発言権を譲ります。
エージェント・アーキテクチャ:ボックス内(Harness in the Box)とボックス外(Out of the Box)
Cole [00:10:11]: まず、バックグラウンド・エージェントシステムの構成要素とは何かという一般的な話から始め、その後、あなたが下す意思決定のいくつかの微妙な点について深入りするのがよいかもしれません。
Swyx [00:10:22]: でも、おそらくワルデンが言いたいのは、エージェントはこのようなオープンコードボックスの中にあるということでしょうか。つまり、これはインフラであり、その中にエージェントがあります。そして、エージェントを内部に置くか外部に置くかについての議論がありましたね。それを詳しく説明していただけませんか。
Cole [00:10:39]: バックグラウンド・エージェントシステムでは、実際にエージェントがどこで実行されるかという決定を下す必要があります。これは通常、「ボックス内(in the box)」または「ボックス外(out of the box)」として記述されます。エージェントをボックス内で実行する場合、いくつかのトレードオフが生じます。主なネガティブなトレードオフはセキュリティです。なぜなら、エージェントがそのボックス内で実行される限り、特別な設計をしない限り、すべてのシークレットもまたそのボックス内に含めなければならないからです。そして、自然な...
原文を表示
The new AIEWF website is live! CFPs close in 2 days and we will run our first New Engineer Orientation this weekend, get your tickets booked ASAP as they -will- sell out. Take the AI Engineering Survey and get >$2k in credits and free AIE WF tickets!
One of the central tensions in the agents industry is that even while there are major decacorn agent labs like Sierra, Decagon, Notion and Cursor being built up, it is also true that it has never been easier to DIY agents, with a plethora of agent frameworks like LangGraph and Pydantic and Flue, and managed agents from Anthropic and Gemini and Amazon. There has been a wave of companies building their own background agents from Shopify to Stripe to Paradigm to Razorpay, and even Cognition’s friends Ramp have built their own coding agent with other friend Modal.
You’d think Cognition might feel a bit threatened, but they’re not - even after all this, they were way oversubscribed for the $1B Series D they just announced:
@Lux_Capital, @generalcatalyst, and @8vc.\n\nOur enterprise usage has grown >10x since the start of this year, and our run-rate revenue grew to $492 M.\n\nWe launched Devin two years ago as the first AI software engineer. Since ","username":"cognition","name":"Cognition","profile_image_url":"https://pbs.substack.com/profile_images/1765909640364068865/MvH-m0gd_normal.jpg","date":"2026-05-27T15:39:26.000Z","photos":[{"img_url":"https://pbs.substack.com/media/HJViewebAAE1uVB.jpg","link_url":"https://t.co/k99LLLyWhZ"}],"quoted_tweet":{},"reply_count":157,"retweet_count":194,"like_count":2372,"impression_count":733289,"expanded_url":null,"video_url":null,"belowTheFold":false}" data-component-name="Twitter2ToDOM">
Walden Yan, coiner of context engineering and Chief Product Officer/Cofounder of Cognition, invited OpenInspect’s Cole Murray to talk about why the Devin is in the Details.
Full conversation live on the pod today:
In retrospect, async agents were the most AGI pilled bet you could make in 2024 - the models weren’t good enough yet to vibecode, and people didn’t trust AI enough to let it rip, nobody (including early Cognition) was sure about the form factors.
Now it is obvious:
The first wave of AI coding tools made the developer faster but remain heavily in the loop. Copilor and Cursor’s tab autocomplete are prime examples However, the workflow was still heavily centered around and bottlenecked by the developer’s local workflow: a developer in an IDE, watching the model, accepting or rejecting changes, and pushing code one interaction at a time.
The second wave was local agents: Claude Code, Windsurf, Cursor’s agents pane: first one and increasingly many terminals all running concurrently.
The current Age of Async Agents points to a different future focused more on agent orchestration which drives end-to-end development.
According to previous guest Steve Yegge, there are finer-grained 8 levels to agent adoption, but we have collapsed it into three.
As Cursor’s Michael Truell put it in The third era of AI software development:
Cursor is no longer primarily about writing code. It is about helping developers build the factory that creates their software. This factory is made up of fleets of agents that they interact with as teammates: providing initial direction, equipping them with the tools to work independently, and reviewing their work.

The agent should not sit solely inside the developer’s flow. It should be setup to work in the background so that you can give it a task, a repo, a machine, a shell, a browser, tests, memory, and review loops to go do the work somewhere else.
In less than a year, the sentiment has shifted from avoiding multi-agent systems:
to suggesting approaches that actually work:
From coining “context engineering” to building the infrastructure behind Devin’s 7x PR growth and jump from 16% to 80% of commits across Cognition repos, Walden Yan has had a front-row seat to the background-agent shift. In this episode, Cognition co-founder and CPO Walden Yan joins swyx alongside Cole Murray, creator of OpenInspect, to unpack why everyone is building their own Devin, what changed after the December 2025 model inflection, and why “spec to pull request” is now becoming a real production workflow.
We go deep on the architecture of background agents: harness-in-the-box vs out-of-the-box, why Devin separates the “brain” from the machine, why repo setup is still one of the hardest problems, why Docker is not always enough, and how full VMs, snapshots, scoped secrets, GitHub bots, Slack integrations, and video-based testing all fit together. Walden and Cole also dig into memory, MCP limitations, multi-agent orchestration, AI code review, SRE auto-triage, PMs shipping code from Slack, Windsurf 2.0, hybrid frontier/sub-frontier systems, and the real failure mode of uncontrolled vibe coding: your codebase regressing to your worst engineer.
And as agents eat software… and software eats the world… you can draw the conclusion on what is next:
We discuss:
Why the engineering world is waking up to background agents and cloud agents
The December 2025 model inflection that made spec-to-PR workflows practical
Devin’s 7x merged PR growth and rise from 16% to 80% of commits
Why Cole built OpenInspect as an open-source background-agent system
The economics of $20/seat agent products and why monetization is tricky
What Cognition actually sells beyond Devin: infra, onboarding, integrations, and adoption
Harness in the box vs out of the box, and why architecture matters
Why Devin separates the brain from the machine for security and permissions
Repo setup, scoped secrets, Docker Compose, and agent-ready dev environments
Why full VMs matter when agents need to run real applications and test them
Android, macOS, Windows, nested virtualization, and machine-specific agent work
Why testing is much harder than “computer use”
Screenshots, video verification, and the “I know it works” merge moment
GitHub UX, Devin Review, AI reviewers, and agents responding to PR comments
Why MCP alone is not enough for first-class Slack and enterprise integrations
Memory, Knowledge, skills, Claude.md, and why retrieval is still unsolved
Devin’s auto-generated memories and the challenge of memory pruning
Always-on agents as permanent PMs for issues, tickets, and product areas
Sub-agents, meta-Devin management, and what multi-agent systems actually add
Why pure auto-merge vibe coding breaks down after about two weeks
AI code smells, lint rules, reward hacking, and Semgrep for agent-written code
GitAI, inline context, and preserving the “why” behind code changes
Local testing, mock servers, older codebases, and preparing companies for agents
Windsurf 2.0 and the handoff between local foreground agents and cloud background agents
SRE auto-triage, support workflows, and agents as first responders
PMs, marketing, and non-engineers creating pull requests from Slack
AI agent budgets, $1k-$5k per engineer spend, and hybrid frontier/sub-frontier systems
The rise of autonomous coding factories and who Cognition is hiring
Walden Yan
X: https://x.com/walden_yan
LinkedIn: https://www.linkedin.com/in/waldenyan/
Cole Murray
X: https://x.com/_colemurray
LinkedIn: https://www.linkedin.com/in/colemurray/
OpenInspect / Background Agents: https://github.com/ColeMurray/background-agents
Timestamps
00:00:00 Introduction
00:00:43 Why Everyone Is Building Their Own Devin
00:01:57 Devin’s 2025 Ramp: 7x PR Growth and 80% of Commits
00:03:49 OpenInspect and the Rise of Open-Source Background Agents
00:07:59 What Cognition Actually Sells Beyond Devin
00:09:56 Background Agent Architecture: Harness In vs Out of the Box
00:12:08 Separating the Brain from the Machine
00:14:07 Repo Setup, Secrets, Docker, and Full VMs
00:19:13 Why Testing Is Harder Than Computer Use
00:22:40 Video Verification and the “I Know It Works” Merge Moment
00:23:19 GitHub UX, Devin Review, and AI Code Review
00:25:42 MCP, Slack, and Enterprise Agent Integrations
00:28:59 Memory, Knowledge, and Always-On Agents
00:36:16 Sub-Agents, Multi-Agent Orchestration, and Meta-Devin
00:43:55 Vibe Coding, Auto-Merge, and Codebase Decay
00:48:38 Agent Infra, VPCs, Cloud Providers, and Fast VM Restore
00:52:25 AI Code Smells, Reward Hacking, and Code Review Systems
00:56:10 Making Codebases Agent-Ready
00:58:30 Windsurf 2.0 and the Local-to-Cloud Agent Handoff
01:01:15 SRE Auto-Triage, PMs Shipping Code, and Agent Use Cases
01:04:32 Agent Budgets, Hybrid Models, and Autonomous Coding Factories
01:06:51 Hiring at Cognition and OpenInspect Consulting
01:07:45 Outro
Transcript
Introduction: Walden Yan, Cole Murray, and Context Engineering
Swyx [00:00:00]: All right, we’re in the studio with Walden Yan, co-founder of Cognition, CPO.
Walden [00:00:08]: Happy to be here.
Swyx [00:00:09]: Which is a cool title. And coiner of context engineering.
Walden [00:00:15]: Although I think there are many people who’d used the terms in various ways beforehand, but I did find that people, both internally and externally, enjoyed the upgrade from prompt engineering or model wrapping into maybe a more thoughtful way to build agents.
Swyx [00:00:33]: For those who haven’t caught up on that, I have on screen the Don’t Build Multi-Agents post, which you should go read on and we might refer to, and Cole Murray, who created OpenInspect.
Cole [00:00:43]: Great to be here.
Swyx [00:00:43]: So let’s talk about it. Everyone is building their own Devins. What’s going on?
The December Shift: From Handholding Models to Autonomous PRs
Cole [00:00:51]: So I think the engineering world is waking up to this idea of background agents, cloud agents, whatever you’d like to call it. And I think we saw a shift around the December timeframe of 2025, where the models Opus 4.5 and GPT 5.2, they reached a capability where we moved away from handholding the model and being able to actually more or less autonomously drive the model. And what I mean by that is that we could pretty much go from a specification to a completed pull request, assuming the spec was good enough, with very little friction. And that paradigm alone, I think, changed a lot of how we interact with agents, and opened this world where background agents became more practical.
Swyx [00:01:41]: I think for Cole, everyone experienced this in December, but I feel like there was just this increasing ramp, right? There was this moment which was, I think, Sonnet 3.7, where, You guys rewrote Devin in one night or something. So describe 2025 or how it felt from your side.
Walden [00:02:01]: In retrospect, we always thought it was ramping up, but then even now, over the last three, four months from today, it’s been ramping up even faster. So it’s almost funny to be talking about how, big of a leap Sonnet 3.7 was, and honestly, a lot of it was stripping out parts of Devin that were no longer needed with that jump in of intelligence. But I also just think that a lot of the recent leaps, especially, you look at, models like Opus and the latest GPT models, they are reaching levels of autonomy where people are actually finding that they actually can just be hands-off. And people who were once debating, “Oh, do I need to be in the weeds with my model in the IDE? Can I just completely move it off into the cloud?” That’s a more serious conversation, and we’ve seen that in all of our growth charts. Internally there’s this funny graph where our usage has, of PRs, our merged PRs, has grown 7X since I forget what it was called.
Swyx [00:02:57]: I think Dev, maybe tweeted that. Yes.
Walden [00:03:01]: it grew like 7X over, the last, I think it was, two months, three months, something like that. And then you see our engineering headcount growth. It’s, gone up by, 10% or something.
Swyx [00:03:11]: We were, we were afraid To release this. So this is Devin commit percentages on all Devin repos, was 16% in January and now 80% in March.
Walden [00:03:25]: It’s a big shift right now. And so it makes sense that a lot of people are now thinking about, buying Devin, but also maybe, trying to build their own and there’s Lots of I have a lot of fun building Devin, so I can see why other people would want to build their own cloud agents as well. Matt, well, maybe it’s good to hear, what initially inspired you to try to build OpenInspect?
OpenInspect: Ramp, Cloud Agents, and Open Source
Cole [00:03:49]: OpenInspect came about, through primarily my clients observing how they were using tools like Claude, OpenAI’s Codex at the time, and seeing some of the friction that they were having with it. Primarily the Claude was being used through Slack, and a big issue they ran into was that the sessions that were launched were specific to whoever called it via Slack. And so if a PM was the one who invoked the session and they would then go to pass context to engineering can’t see the session. And that in itself was a deal breaker because the PM, “Hey, engineering, can you jump in?” But there’s nothing to jump in on unless they’re copy-pasting out or the single response that came back. And so seeing some of these problems, I had built a similar architecture internally, just to experiment with, test out different ideas as this trend of moving off of localhost was starting to become, And as Ramp released their blog post, I had a lot of the pieces for this already in place, and just thought it would be funny to, see what Claude could do just purely from the blog post. And on my X account, there’s actually a thread of where I live tweeted, going through this
Cole [00:05:14]: comparing GPT and Claude as both of them are going through it.
Swyx [00:05:17]: On the announcement thing or something else?
Cole [00:05:19]: right after it got released. We can put it in the show notes. Yeah, it was helpful that I had already knew how to verify the system. I knew what I was looking for. I think Ramp did a great job of really illustrating, the technical aspects of how to build something. It was much more than just like, “Hey, we built a great system.” It was, “And here’s how you can build it too.” And so, I resonated a lot with that, just with the problems that I was already seeing, and I thought that, looking around, I didn’t really see anything in the open source community that, met this type of system. I think there’s a lot that run, in localhost like Superset, Conductor, and many others.But nothing that was actually running in the cloud. And so, I built it, and I thought it was interesting to just open source it and allow anyone to then have a foundation that they can mix and match on top of.
The Business of Background Agents: Open Source vs. Devin
Swyx [00:06:16]: So literally after Devin was launched was, there was OpenDevin Which became All Hands. I don’t know if you tried that or
Walden [00:06:22]: I was going to say, one of the things that interested me a lot with OpenInspect was, you didn’t try to go make it then something you monetize. There are a lot of, I think, these open source projects would then go and really try to, raise V
Swyx [00:06:36]: That’s why no OpenDevin. Yeah.
Walden [00:06:38]: yeah, and how did you think about that? I thought that was very interesting.
Cole [00:06:44]: I thought, and just what I had seen across my clients, was that having a background agent system is going to become a critical infrastructure within their company. And so because of that, I think that I wanted to open source it so that they could fork it and put in whatever customization they wanted. To that question though, I get asked all, “Oh, are you going to raise? Are you going to turn this into a service?”
Walden [00:07:08]: I’m sure you’ve gotten offers.
Cole [00:07:09]: but primarily I don’t want to do that for a few reasons. One, I think that I don’t want to compete for, $20 a seat. I think that is just a really difficult business. I think it’s very easy to copy the main pieces of it. Again, I built this fairly quickly. And I think because you are not owning, I guess, the entire stack, it’s hard to monetize. You have money being made at the sandbox layer with Daytona, E2b, many other players. You have money being made at the model layer. And you sit in this weird in-between gray area where what are you actually selling? You’re selling, I guess, the infrastructure. You’re selling, the integrations maybe.
Swyx [00:07:55]: let’s ask the guy. What are you What are you selling?
Walden [00:07:59]: Well, yeah, there’s multiple layers to this in practice, and actually it’s funny you mentioned the infrastructure, ‘cause when we got started building Devin as well, we had to go figure out how to make the infrastructure as well because,
Swyx [00:08:10]: You had to build this two years before everyone else,?
Swyx [00:08:15]: Including, the model side
Walden [00:08:17]: It was not, it was not very polished at the start, when we just built it off of raw VMs from cloud providers like EC2, the boot up time was so slow, I think, And especially then, turning off the machines, saving them, and then to be able to bring them back up again when the, when you want Devin to wake up again later. It would just be out cold for like 10 minutes because that’s just how long these systems took. They were not built for this repeated down and up usage. And so we actually had to go do all of that. And as a result now, one thing we offer when we go and sell Devin to people is, you don’t have to worry about all the compute side of things. We’ll make it work. We’ll make it work in your cloud if you want it to. But aside from the product, and I want to go into the agents and the tuning of the intelligence part later, but I think a big part of what we do at Cognition as well is to just make sure that your company learns and uses and adopts these coding agents. ‘Cause I think for especially the largest enterprises in the world, you find that there is a lot of people who want to move over to using AI for their day-to-day workloads. But because of the way projects are planned, because, not everyone is literate in using AI in these ways, having a team of engineers who can actually go in and onboard you, set up all the integrations you need, the automations you need to really get to that level of, leverage with AI, is super helpful. And so We do that. We show thought partners to the customers that we work with as well.
Swyx [00:09:56]: So let’s talk about, architectural stuff. I think that’s always, that is something that was the topic of conversation between the two of you. Is this, the mental model that you want to start with or something else? I’ll just leave the floor open to you guys.
Agent Architecture: Harness in the Box vs. Out of the Box
Cole [00:10:11]: I think, maybe we can start here as just a general what are the pieces of a background agent system. And then maybe we can go into some of the nuances of, Decisions that you can make.
Swyx [00:10:22]: But I guess I also Like, what, maybe what Walden is saying is the agent is like in this open code box, I guess. Right? This is infra, and then there’s, that’s the agent. And you had this discussion about whether you put the agent in here or in Out externally. Can you tease that out?
Cole [00:10:39]: In a background agent systems, you have a decision to make of where the agent is actually going to run. This is typically described as the harness in the box or out of the box. With running the agent in the box, you’re making some trade-offs by doing that. The negative trade-off you’re making is primarily security. Because the agent is running in that box, unless you otherwise design it, all of your secrets need to go into that box as well. And given the natu
関連記事
動的ワークフローの紹介(3 分読了)
Jarred Sumner は動的ワークフローを活用し、Bun を Zig から Rust に書き換え、11 日間で 75 万行のコードを処理してテストスイートの成功率 99.8% を達成した。この手法では Claude がタスクを細分化し、エージェントが並列実行して結果が収束するまで動作する。
DeepSWE:長期的なソフトウェア工学のための新ベンチマーク
DeepSWE は、91 のリポジトリと 5 つの言語にまたがる長期的なソフトウェア工学タスクを対象とした新しいベンチマークです。この手法は、モデルが事前に解決策を見ていないことを保証し、汚染のない課題、現実世界の複雑さの反映、多様なリポジトリのカバー、信頼性の高い検証プロセスという 4 つの主要な改善点を提供します。
MCP(モデル・コンテキスト・プロトコル)仕様のリリース候補版が公開、7月28日に正式発表へ
MCP(モデル・コンテキスト・プロトコル)の次期仕様におけるリリース候補版が公開されました。これはローンチ以来最大の改訂であり、標準的なHTTPインフラ上でスケーリング可能なステートレスコアやOAuthに準拠した認証機能などが導入されています。最終仕様は7月28日に発表されます。