AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Latent Space·2026年4月15日 09:31·約24分で読める

NotionのToken Town:5つの再構築、100以上のツール、MCP対CLI、そしてソフトウェアファクトリーの未来 — NotionのSimon Last & Sarah Sachs

#Agentic AI#Custom Agents#Model Evaluation#Software Factory#Notion
TL;DR

Notionはカスタムエージェントの複数回再構築と「Agent Lab」アプローチを通じて、生産性ツールをエージェントネイティブなシステムへと進化させ、ソフトウェアファクトリーとAIエンジニアリング組織の未来像を示した。

AI深層分析2026年4月27日 01:23
4
重要/ 5段階
深度40%
5
関連度30%
4
実用性20%
4
革新性10%
4

キーポイント

1

カスタムエージェントの再構築と成功要因

2022年の初期失敗から始まり、ツール呼び出し標準の欠如やモデルの限界を克服するため4〜5回の再構築を行い、最終的に「Agent Lab」プレイブックを採用して実用化した経緯。

2

AIエンジニアリング組織と文化の変革

「ノット・トークン・タウン」の原則に基づき、アイデア所有権より目標設定を重視し、低エゴで迅速な対応ができるチーム構成や、セキュリティを早期に組み込むハッカソンの実施など、組織設計の革新。

3

評価(Evals)とモデル行動エンジニアリングの役割

回帰テストやランチャー品質評価に加え、モデルの能力限界を探るための「フロンティア/ヘッドルーム」評価(成功率約30%)を導入し、失敗分析やモデル理解を独自の「モデル行動エンジニア」職として位置づけた。

4

ソフトウェアファクトリーとAGIへの展望

コーディングエージェントをAGIの核と見なし、仕様策定からテスト・デバッグまでをエージェントが行う「ソフトウェアファクトリー」のビジョンと、エンジニアリング職の役割変化について言及。

5

ソフトウェアエンジニアの役割の変化と「ソフトファクトリー」

コーディングエージェント時代において、エンジニアの役割はコード記述からエージェント、PR、検証ループを監督する「厳格な外系」の管理へ移行し、人間の介入を最小限に抑えつつ重要な不変条件を維持する「ソフトファクトリー」モデルが理想とされる。

6

Notionにおけるエージェントの構成とMCP vs CLI

共有データベースをプリミティブとしてエージェントが互いを呼び出し、メモリはページとデータベースで実装される。SimonはCLIの自己デバッグ性に強い関心を示す一方、SarahはMCPの文脈における能力、決定論、権限付け、価格整合性を重視する。

7

エージェントの自己進化とNotionの戦略的焦点

エージェントは自身の失敗を検査し指示を編集できる自己構成能力を持つ。Notionは基盤モデルの訓練には消極的だが、ファインチューニングと検索/ランク付けへの投資を重視し、会議メモなどの高信号データ収集を通じてコラボレーションデータの中心地となることを目指している。

影響分析・編集コメントを表示

影響分析

Notionの取り組みは、エンタープライズ向け生産性ツールが単なるドキュメント作成から「エージェントネイティブなシステムオブレコード」へ移行する具体的なロードマップを示している。特に、モデルの限界を前提とした評価手法や組織文化の変更は、AI製品開発におけるベストプラクティスとして業界全体に影響を与える可能性がある。

編集コメント

Notionが示す「Agent Lab」や「モデル行動エンジニアリング」といった概念は、AI実装における技術面だけでなく、組織文化と評価基準の再定義という点で極めて示唆に富んでいる。

ロンドンに参加できなかった方々、来週マイアミでお会いしましょう!

知識作業のためのデカコーン企業であるNotionは、ChatGPT以前からAIツールの構築を進めており、2023年のQ&A機能、2024年の統合AI、そして2025年の会議ノートなど、多くのヒット作を生み出してきました。最後のMakeユーザーカンファレンスの終了時、Ryan NystromはNotion 3.0のカスタムエージェント(Custom Agents)を予告し、ついにエージェントラボのプレイブックを採用しました!

NotionのSarah SachsとSimon Lastが、カスタムエージェント(Custom Agents)の構築方法、なぜ正しく動作させるまでに数年と複数の再ビルドが必要だったのか、そして生産性ツールをエンタープライズワークのためのエージェントネイティブな記録システムに変えることが何を意味するのかについて、詳細に解説します。

私たちは、今日のソフトウェアにおいて最も野心的なAI製品取り組みの一つの背景にある、プロダクト、エンジニアリング、評価(evals)、価格設定、組織設計の決定を内部から探ります。2022年の初期のツール呼び出し(tool-calling)実験での失敗から、エージェントハーネス、プログレッシブツール開示、データキャプチャとしての会議ノート、そしてソフトウェア工場とエージェント型作業の長期ビジョンに至るまでを扱います。

私たちが議論する内容:

  • Notionカスタムエージェント(Custom Agents)のローンチに至るSarahとSimonの道のりと、その機能が本番環境で利用可能になるまでに4回または5回の再ビルドが必要だった理由
  • 初期のエージェント試みが失敗した理由:ツール呼び出し(tool-calling)の標準化の欠如、短いコンテキストウィンドウ、信頼性の低いモデル、そしてモデルに露出されすぎた複雑さ
  • 「エージェントラボ」のテーゼ:単なるモデルのラップではなく、人々がどのように協力するかを理解し、最先端の能力(frontier capabilities)围绕する適切な製品システムを構築すること

Notionがロードマップのタイミングをどう捉えているか:モデルの制約に逆らって泳ぐのではなく、モデルが準備できたときに製品が利用可能になるよう、十分に早い段階で構築すること

なぜコーディングエージェントはAGIの核のように感じられるのか、そしてSpec(仕様策定)、コード記述、テスト、デバッグ、レビュー、コードベースの維持をエージェント同士で協力して行う「ソフトウェア工場」についてNotionがどのように考えているか

SarahがNotionでAIエンジニアリングを率いている様子(「Token Townからのノート」):アイデアの所有権よりも目標設定を重視し、自分の成果を削除することに抵抗のない低エゴ(自己主張の低い)チーム、そして急速に変化する機会に群がって対応するよう設計された文化

「Simon Vortex(ソモン・ヴォルテックス)」、社内ハッカソン、そしてなぜセキュリティ対策を後ではなく早期に導入するのか

NotionがAIをどのように組織化しているか:中核的なAI機能とインフラ、製品パッケージングチーム、そしてすべてのプロダクト表面(ユーザーインターフェースや機能面)が人間だけでなくエージェントに対しても機能するよう、ますます強く求められている会社全体の指針

プロトタイプが社内でより簡単に作成可能になった理由、そして社員の誰もが毎日使用するツールであるNotion内で、「メモよりもデモ」が製品開発をどのように変化させているか

Notionの評価(eval)哲学:回帰テスト、リリース品質の評価、そしてモデルの能力がどこに向かっているかを把握するためにあえて約30%の成功率に留める「フロンティア/ヘッドルーム」評価

「Model Behavior Engineer(モデル行動エンジニア)」とは何か、そしてなぜNotionは評価の作成、失敗分析、モデル理解を単なるソフトウェアエンジニアリングではなく、独立した機能として扱っているのか

コーディングエージェント時代のソフトウェアエンジニアの役割の変化、そして新しい仕事がコードをタイプするものではなく、厳格な外部エージェントシステム、プルリクエスト(PR)、検証ループを監督するものに似ている理由

「ソフトウェア工場」がどのように機能すべきか:仕様、自己検証、バグフロー、サブエージェント、そして重要な不変条件を維持しつつ人間の介入を最小限に抑える方法

コワーキングスペースの入居者申請を処理するNotionカスタムエージェントのライブデモ:メールのトリアージ、ウェブ検索による申請者の情報充実、そして構造化データをNotionデータベースへの書き込み

Noton内でのエージェントの組み合わせ:プリミティブとしての共有データベース、他のエージェントを呼び出すエージェント、数十人の専門的なエージェントを監督する「マネージャーエージェント」、そしてページとデータベースとして単純に実装されたメモリ

MCP対CLIに関するNotionの見解:SimonがCLIの自己デバッグ機能に楽観的な理由、MCPが依然として意味をなす場所、そしてSarahが能力、決定論、権限付与、価格整合性についてどのように考えているか

Notion内部のエージェントハーネスの進化:初期のJavaScriptコーディングエージェントからカスタムXMLへ、MarkdownやSQLライクな抽象化へ、ツール定義、プログレッシブ・ディスクロージャー、そしてはるかに短いシステムプロンプトへ

Notionが「クラストップ」の教育を重視する理由:すべての人のために能力を過度に抽象化するのではなく、洗練された運用者を対象とした構築

エージェントのセットアップは現在どのように機能しているか:権限に関するガードレールを設けつつ、自身を設定し、自身の失敗を検証し、自身の指示を編集できるエージェント。

Notionがカスタムエージェントをどのように価格設定しているか:トークン、モデルタイプ、サービングティア、ウェブ検索、将来のサンドボックスコストを抽象化したものとしてのクレジット;なぜ使用量ベースの価格設定が必要だったのか;そして「自動」モードがどのように適切なモデルを適切なタスクにマッチさせようとしているか。

なぜNotionは基盤モデルのトレーニングに積極的でないのか、現在どこでファインチューニングや最適化を行っているのか、そして検索の多くが人間ではなくエージェントから行われるようになると、取得(retrieval)やランク付けが最も重要な投資領域の一つとなる理由。

なぜ「ミーティングノート」がNotionの最も強力な成長ループの一つになったのか:単なる文字起こしとしてだけでなく、検索、カスタムエージェント、フォローアップワークフロー、そして企業コラボレーションのための広範な記録システムを駆動する高信号データキャプチャとして。

なぜNotionはハードウェア自体を構築することよりも、コラボレーションデータが存在する場所になることに興味を持っているのか、そしてウェアラブルやその他のキャプチャデバイスが最終的にどのようにそのシステムにフィードバックする可能性があるか。

Sarah Sachs

LinkedIn: https://www.linkedin.com/in/sarahmsachs

X: https://x.com/sarahmsachs

Simon Last

LinkedIn: https://www.linkedin.com/in/simon-last-41404140

X: https://x.com/simonlast

完全なビデオエピソード

タイムスタンプ

00:00:00 導入およびNotionカスタムエージェントのローンチ

00:01:17 なぜNotionはエージェントを4回、あるいは5回も再構築したのか

00:03:35 現在のモデルだけでなく、モデルが向かっている方向に向けて構築すること

00:05:32 エージェント・ラボの仮説、ラッパー、そしてプロダクトの直感

00:08:07 ユーザー・ジャーニー、リーダーシップ、そして低エゴのAIチーム

00:13:16 サイモン・ボルテックス、ハッカソン、そして早期のセキュリティ導入

00:16:39 チーム構成、メモよりデモ、そしてエージェント向けの構築

00:20:25 評価(Evals)、Notionの最終試験、そしてモデル・ビヘイビア・エンジニアの役割

00:27:37 エージェント・ハーネスとしての評価、そしてソフトウェアエンジニアの役割の変化

00:30:42 ソフトウェア・ファクトリー:仕様、検証、そしてエージェントのワークフロー

00:32:18 ライブデモ:コワーキングスペース向けのカスタムエージェント

00:35:08 エージェントの構成、マネージャー・エージェント、そしてページとしてのメモリ

00:38:15 Notion Mail、Gmail、ネイティブインテグレーション、そしてツール

00:39:43 MCP対CLI、そして機能のコスト

00:44:13 NotionがMCPを使用する場合と独自インテグレーションを構築する場合

00:47:43 Notionのエージェント・ハーネス再構築の歴史

00:55:35 パワーユーザー、公開ツール、そしてセットアップ・エージェント

00:58:01 自己修正型エージェント、権限、そして「flippy」

01:01:13 価格設定、クレジット、そして適切なモデルの自動選択

01:09:01 Notionが独自のフロンティアモデルをトレーニングしない理由

01:14:07 エージェント向けに構築された検索:取得、ランキング、そして検索

01:17:27 会議メモをデータキャプチャとワークフロー自動化として活用

01:21:18 ウェアラブル、ハードウェア、そして記録システムとしてのNotion

01:23:45 結びの言葉

トランスクリプト

[00:00:00] アレッシオ:みなさん、こんにちは。Latent Spaceポッドキャストへようこそ。Kernel Labsの創業者であるアレッシオです。今日はLatent Spaceのエディターであるswyxをお迎えしています。

[00:00:11] swyx:こんにちは。こんにちは。アレッシオがシモンとサラ(Notion)のために用意してくれた美しいスタジオに戻ってきました。ようこそ。

[00:00:18] サラ・サックス:お招きいただきありがとうございます。

[00:00:19] アレッシオ:お招きいただきありがとうございます。はい。

[00:00:20] swyx:最近のカスタムエージェントのローンチ、ついに公開されましたね。いかがお感じですか?

[00:00:26] サラ・サックス:私たちはものをゆっくりとリリースします。なので、少しの間アルファ版(初期公開版)として提供しており、その時点では製品化に向けて準備を整えるチームと、次の機能を開発する別のチームがいます。

そのため、時にはこれらのローンチの満足感が少し遅れることもあります。なので、自分が行ったすべての作業を思い起こすのはとても良いことです。なぜなら、私たちは往々にして2つから3つのマイルストーン先を見据えてしまう癖があるからです。ああ、そうせざるを得ないのです。ご機嫌斜めにならず、油断してはいけませんから。しかし、人々がこれがいかに役立つかを理解してくれたのは素晴らしいことです。

そして、今日のAIツールの構築は、2年や3年前よりも全体的に容易になっていると思います。人々はそれを理解し始めているので、ユーザー教育という点では、無料トライアルやコンバージョンの観点から私たちの最も成功したローンチとなりました。本当に成功しました。はい。

しかし、構築すべきことはまだたくさんあります。

[00:01:12] swyx:3ヶ月間無料にすることで、それが助けになりますね。

[00:01:16] サラ・サックス:ええ。

[00:01:17] Simon Last:私にとって間違いなく非常に興奮する瞬間でした。おそらく4回目か5回目のリビルドですから。

[00:01:22] swyx:はい。

[00:01:23] Simon Last:つまり、

[00:01:24] swyx:あなたは20年、22年からこの構築を続けてきたわけですね。

[00:01:26] Simon Last:ええ、つまり、私たちがGPT-4へのアクセスを得た直後、2022年後半のことですが、最初に浮かんだアイデアの一つは、「よし、エージェントを作ろう」でした。当時は「アシスタント」という言葉を使っていましたが、まだ「エージェント」という用語は定着していませんでした。しかし、Notionが持つすべてのツールへのアクセスをエージェントに与え、バックグラウンドで動作させて作業を行わせるというアイデアでした。

そして私たちはそれを何度も試しましたが、時期尚早だったのです。うーん、

[00:01:48] swyx:そこをダブルクリックして詳しく説明してもらわないと。何が「時期尚早」だったのでしょうか?何が機能しなかったのですか?

[00:01:52] Sarah Sachs:ファンクション・コールリング(function calling)が登場する前であれば、私たちは問題ありませんでした。Frontier LabsやFireworksと連携して、Notionの関数に対するファンクション・コールリングモデルをファインチューニングしようとしていました。

これが私が参加した時期です。私は、Simonが休暇を取れるようにマネージャーが必要だったため、その役割を引き受けるために参加しました。そのため、それ以降の詳細についてはSimonに語っていただくのが適切でしょう。

[00:02:11] Simon Last:ええ、私たちは異なる時期に、慈善団体とOpenAIの両方とのパートナーシップを結びました。当時、私たちはツールという概念自体が存在していなかったため、試行錯誤を行っていました。

私たちは独自のツール呼び出しフレームワークのようなものを設計し、その後、複数のターンにわたってそれを使用するようにモデルをファインチューニングしようと試みました。うーん。そして、それが箱から出してすぐにうまく機能しなかったと思うんです。そうですよね。モデルがあまりにも賢くなく、コンテキストの長さも非常に短すぎました。

[00:02:37] アレシオ:そうです。

[00:02:37] サイモン・ラスト:うーん、はい。私たちは長期間にわたってそれに対して頭をぶつけ続けていました。

うーん、残念ながら、常にそれが機能しているような兆しはありましたが、うーん、それは有用で楽しいものとして使えるほど十分に堅牢には感じられませんでした。うーん。私が言うには、大きな突破口は去年の初め頃、おそらくソニック 3.6 または 7 だったと思います。そして、それが私たちが昨年リリースしたエージェントの開発を始めた時期です。

うーん。そして、その後、カスタムエージェントという似たような機能が登場しましたが、それはより時間がかかりました。なぜなら、私たちは信頼性を大幅に高める必要があったからです。実際にはバックグラウンドで実行されているためです。

[00:03:14] サラ・サックス:そして、権限や、このカスタムエージェントが X 人のグループと Slack チャンネルで共有され、Y 人のグループに公開されたドキュメントへのアクセス権を持つという理解に関するプロダクトインターフェースの問題があります。

そして、その交差する専門家たちにとって、Y が全員とは限りません。そこで、管理者が権限付与の複雑さを理解できるようにプロダクトをどのように構築するかについて、複数の試行錯誤を行いました。

[00:03:35] Alsesio:結局のところ、すべては難しいものです。はい。モデルが機能していない場合に、今後適切なペースでモデルの性能が向上することを期待して構築すべきだと判断し、そのロードマップにどのように反映させるかについて興味があります。同時に、2022年には多くの顧客を抱えていましたよね。

それはあなたが新興企業だったわけでも、ユーザー基盤がなかったわけでもありません。

[00:03:54] Simon Last:はい、常にバランスを取ることが重要だと考えています。つまり、先を見据えて将来の方向性に向けて構築するだけでなく、有用なものを提供することも重要です。そのため、常にそのバランスを保つよう努めています。

私たちはポートフォリオアプローチを取ります。複数のプロジェクトを同時に進めながら、すでにリリース済みの機能の維持や、既に良好に動作している新機能の提供にも注力しています。

そして、少し大胆なプロジェクトをいくつか抱えることも常に目指しています。

[00:04:23] Alsesio:現在、そのような大胆なプロジェクトは何ですか?具体的な作業内容を開示する必要はありませんが、18ヶ月後に「ああ、これは当然うまくいくはずだ」と言われるような、現在の取り組みについて知りたいです。

[00:04:35] Sarah Sachs:18ヶ月後ですね。

[00:04:37] Alsesio:はい、18ヶ月というのは、

[00:04:37] サラ・サックス:長い時間がかかりましたね。ええ、そうです。

[00:04:39] サイモン・ラスト:ええと、いくつかのことが起きていますね。私が明確になってきていると思うことの1つは、コーディングエージェントがEGI(エンタープライズ・グレード・インテリジェンス)のカーネル、つまりすべての基盤となっていることです。すべてがコーディングエージェントです。なるほど。それが1つの方向性だと考えています。

そして、その面白さは、エージェントが自らのソフトウェアや機能をブートストラップし、実際にデバッグして保守できる点です。そのため、私たちはこれについて非常に多くのことを考えています。また、私が本当に興奮しているもう1つのカテゴリは、「ソフトウェアファクトリー」とも呼ばれるものです。

人々はこの用語を使っています。基本的には、開発、デバッグ、マージ、レビュー、そしてコードベースとサービスの保守というワークフローを可能な限り自動化できるかどうかが問われています。なるほど。複数のエージェントが内部で連携して動作する中で、それがどのように機能するのかという点です。

[00:05:28] サラ・サックス:最初の質問を思い出してみてください。なぜこれほど時間がかかったのか?私は、何か変化があったと思います。

[00:05:32] swyx:私はそう言っていませんが、ええ。はい、どうぞ。

[00:05:34] サラ・サックス:なぜ、3年半の試行錯誤を経て何が変わったのか?

[00:05:37] swyx:それです。まさにその通りです。なぜなら、多くの人は「まだ機能していない」と言うからです。その後、推論モデルが登場し、ようやく機能するようになりました。

私はこう思いました。では、少し進みましょう

[00:05:43] サラ・サックス:ビットです。つまり、それは一部分に過ぎませんが、私たちが考えるのは、ノーションが新しい機能ごとに他社と差別化される本当の理由は、フロンティア(最先端)な能力において重要な2つのスキルを持っていることです。1つ目は、逆流しないことです。

つまり、モデルの能力に無理やりぶつかっているのか、それとも適切な情報を与えていない、あるいは適切なインフラストラクチャが構築されていないのかを素早く見極めることです。これ自体が直感のスキルです。2つ目は、逆流していないとわかったとき、川の流れがどの方向かを見極め、製品についてどのように先読みし、まだ完璧でなくても構築を始めるかということです。そうすれば、その機能が提供された際に備えが整います。

对吧?これらのことは時に直感に反するように感じられることがあります。例えば、ツール呼び出しモデルが存在しないのに、それをファインチューニングしようとしてしまう場合です。重要なのは、それを長くやめないことですが、そこに何かがあることに気づくことです。私たちは過去に、川の流れに対して正しい方向へ泳いでいないと自覚した多くの事例がありました。

私は、ミーティングノートが完成する前に、複数のバージョンのトランスクリプション(文字起こし)があったと思います。ああ、それについて話さなきゃ

[00:06:39] swyx:それについてです。はい。

[00:06:40] サラ・サックス:はい。ええと、私たちはフロンティアラボズ(Frontier Labs)との間で機能面において非常に密接にパートナーシップを組んでおり、さらにそれらの機能が進展するにつれて、強い確信を持つ必要があります。

Notionは、あなたが協力し、仕事を行うための最高の場所であるべきです。そして、私たちの働き方が変化した場合、その物語はどのように変わるのでしょうか?

はい。

[00:06:58] swyx:ええ、あなたはエージェントラボの thesis(論文/主張)のファンだと教えてくれましたが、これがまさにそれのことですね?

[00:07:02] サラ・サックス:その通りです。私はその thesis を多くの候補者に見せています。まるでマイクロクロームの自動入力のようなものです。

ええと、この時点では、私の最も頻繁に訪問するページの一つです。

[00:07:10] swyx:つまり、これはNotionで働くべき理由であり、OpenEye(オープンアイ)ではない理由对吧?私としては、

[00:07:14] サラ・サックス:ここが、それと異なる点です。

[00:07:16] swyx:ええ。

[00:07:16] サラ・サックス:そして、その理由です。単なるラッパーではありません。ますます多くの人々が、それが単なるラッパーではないことを理解していると思います。

[00:07:21] swyx:ええ。

[00:07:22] サラ・サックス:ええと、ちなみに、初期段階では、私たちが構築する機能の一部は既存の機能に対するラッパーです。もちろんそれはうまく機能しますが、それが最も重要な、ええと、私が言うには収益を驱动する製品ではありません。そして、必ずしもユーザーが必要とするものとは限りません。

[00:07:35] swyx:つまり、NotionはAWSのラッパーですが、そのラッパーはとても美しく、非常に磨き上げられています。

なので

[00:07:40] Sarah Sachs:あの比喩、気に入りました。

[00:07:41] swyx:はい、私もです。

[00:07:42] Sarah Sachs:私が繰り返し使っている比喩は、AWSにおけるDatadogのような関係です。

[00:07:45] swyx:ええ、そうですよね。

[00:07:46] Sarah Sachs:つまり、Datadogはクラウドストレージなしでは存在し得なかったということです。その基盤が機能していることが本質的に重要なんですね。AWSにはCloudWatchという製品もありますが、Datadogは、ユーザーが立ち上げたプロダクトに対してどのような[観測性(observability)]を求めているかを理解する専門家です。

私たちが得意としているのは、人々がどのようにコラボレーションしたいかを理解することであり、まさにそこに私たちの専門性があります。

[00:08:04] swyx:完全に同意します。

[00:08:04] Sarah Sachs:私たちが使用するツールに関わらず、

[00:08:07] Alsesio:私は暗黙的(implicit)な専門知識と明示的(explicit)な専門知識について、どのように考えているか興味があります。Datadogは暗黙的と明示的な半々だと感じています。彼らは市場や業界全体にわたって、エンジニアリングチームが通常何を求めているかを理解しています。

Notionの場合、専門知識はむしろエッジ(末端)に寄っているように感じます。プラットフォームとして非常に水平方向に広がりがあるため、エンドユーザーが必ずしも同じではないからです。ええと、Datadogの場合、エンドユーザーは常にエンジニアリングリードやSRE(Site Reliability Engineering)関連の人物ですが、Notionの場合は何でもあり得ます。

そこで、その専門知識をどのようにプロダクトに落とし込むのか、そしてもちろん、AWSがNotionを構築することはできないという点について、どうお考えか興味があります。このケースではそれが機能しないからですけれども、

[00:08:44] Simon Last:形状が少し異なりますね。古典的な垂直SaaS(Vertical SaaS)では、データ構造もそのようなものだと考えています。彼らは個々の顧客を非常に深く理解しています。

それは狭い切り口ですが、Notionは常に超水平的(Horizontal)です。私たちの課題は、常にこれらのやや相反する2つの力のバランスを取ることでした。つまり、「顧客の声を聞き、彼らが望むものを作る」という広い切り口と、「彼らの要望を分解し、使いやすく優れたプリミティブ(基本要素)にし、コスト対効果 maximized にする」という視点のバランスです。

そして、システム全体を維持し、すべてを非常にクリーンで使いやすい状態に保つことです。

[00:09:22] Sarah Sachs:私たちは依然としてユーザージャーニー(User Journey)を持っています。つまり、コアに焦点を当てています。実は、私がチームの失敗だと考えるのは、「クールなものは何か?」「どのようなツールが?」という「クールなツール」に焦点を当てすぎた時です。

[00:09:31] Simon Last:うん、なるほど。

[00:09:31] Sarah Sachs:クールなツールに焦点を当てると、実際には最も開発速度が遅くなってしまうと思います。なぜなら、依然としてユーザージャーニーに何らかの焦点を当てる必要があるからです。

例えば、私たちは毎週金曜りに集まり、最もトークン消費量の多いカスタムエージェントのトランスクリプト(記録)のP99値を確認し、なぜうまくいかなかったのかを分析して、多くのタスクを切り捨てます。つまり、依然として「これは機能するはずだ」という焦点を持っています。「メールのトリアージ(仕分け)は機能するはずだ」といった具合に。うん、なるほど。

原文を表示

For all those who missed out on London, see you in Miami next week!

Notion, the knowledge work decacorn, has been building AI tooling since before ChatGPT, with many hits from Q&A in 2023 and unified AI in 2024 and Meeting Notes in 2025. At the end of their last Make user conference, Ryan Nystrom teased Notion 3.0’s Custom Agents - and they are finally embracing the Agent Lab playbook!

Sarah Sachs and Simon Last of Notion join us for a deep dive into how Notion built Custom Agents, why it took years and multiple rebuilds to get right, and what it means to turn a productivity tool into an agent-native system of record for enterprise work.

We go inside the product, engineering, evals, pricing, and org design decisions behind one of the most ambitious AI product efforts in software today — from early failed tool-calling experiments in 2022 to agent harnesses, progressive tool disclosure, meeting notes as data capture, and the long-term vision for software factories and agentic work.

We discuss:

Sarah and Simon’s path to launching Notion Custom Agents, and why the feature was rebuilt four or five times before it was ready for production

Why early agent attempts failed: no tool-calling standard, short context windows, unreliable models, and too much complexity exposed to the model

The “Agent Lab” thesis: not just wrapping a model, but understanding how people collaborate and building the right product system around frontier capabilities

How Notion thinks about roadmap timing: not swimming upstream against model limitations, but also building early enough that the product is ready when the models are

Why coding agents feel like the kernel of AGI, and how Notion is thinking about “software factories” made up of agents that spec, code, test, debug, review, and maintain codebases together

How Sarah runs AI engineering at Notion (“notes from Token Town”): objective-setting over idea ownership, low-ego teams comfortable deleting their own work, and a culture designed to swarm around fast-changing opportunities

The “Simon Vortex,” company hackathons, and why security gets pulled in early rather than late

How Notion organizes AI: core AI capabilities and infrastructure, product packaging teams, and a broader company mandate that every product surface must increasingly work for both humans and agents

Why prototypes have become much easier to build internally, and how “demos over memos” changes product development inside a tool the whole company already uses every day

Notion’s eval philosophy: regression tests, launch-quality evals, and “frontier/headroom” evals that intentionally only pass ~30% of the time so the company can see where model capabilities are going

What a “Model Behavior Engineer” is, and why Notion treats eval writing, failure analysis, and model understanding as a distinct function rather than just software engineering

The changing role of software engineers in the age of coding agents, and why the new job looks less like typing code and more like supervising a rigorous outer system of agents, PRs, and verification loops

How the “software factory” should work: specs, self-verification, bug flows, subagents, and minimizing human intervention while preserving the invariants that matter

A live walkthrough of a Notion Custom Agent handling coworking space tenant applications by triaging email, enriching applicants with web search, and writing structured data into a Notion database

How agents compose inside Notion: shared databases as primitives, agents invoking other agents, “manager agents” supervising dozens of specialized agents, and memory implemented simply as pages and databases

Notion’s take on MCP vs CLI: why Simon is bullish on CLI’s self-debugging nature, where MCP still makes sense, and how Sarah thinks about capability, determinism, permissioning, and pricing alignment

The evolution of Notion’s internal agent harness: from early JavaScript coding agents, to custom XML, to Markdown and SQL-like abstractions, to tool definitions, progressive disclosure, and a much shorter system prompt

Why Notion cares about teaching “the top of the class,” building for sophisticated operators rather than abstracting away too much capability for everyone

How agent setup works today: agents that can configure themselves, inspect their own failures, and edit their own instructions — with guardrails around permissions

How Notion prices Custom Agents: credits as an abstraction over tokens, model type, serving tier, web search, and future sandbox costs; why usage-based pricing was necessary; and how “auto” tries to match the right model to the right task

Why Notion is not eager to train a foundation model, where they do fine-tune and optimize today, and why retrieval/ranking is one of the most important investment areas as more searches come from agents rather than humans

Why Meeting Notes became one of Notion’s strongest growth loops: not just as transcription, but as high-signal data capture that powers search, custom agents, follow-up workflows, and the broader system of record for company collaboration

Why Notion is more interested in being the place where collaboration data lives than in building hardware themselves — and how wearables or other capture devices may eventually feed into that system

Sarah Sachs

LinkedIn: https://www.linkedin.com/in/sarahmsachs

X: https://x.com/sarahmsachs

Simon Last

LinkedIn: https://www.linkedin.com/in/simon-last-41404140

X: https://x.com/simonlast

Full Video Episode

Timestamps

00:00:00 Introduction and launching Notion Custom Agents

00:01:17 Why Notion rebuilt agents four or five times

00:03:35 Building for where models are going, not just where they are

00:05:32 The Agent Lab thesis, wrappers, and product intuition

00:08:07 User journeys, leadership, and low-ego AI teams

00:13:16 The Simon Vortex, hackathons, and bringing security in early

00:16:39 Team structure, demos over memos, and building for agents

00:20:25 Evals, Notion’s Last Exam, and the Model Behavior Engineer role

00:27:37 Evals as an agent harness and the changing role of software engineers

00:30:42 The software factory: specs, verification, and agent workflows

00:32:18 Live demo: a custom agent for coworking space applications

00:35:08 Composing agents, manager agents, and memory as pages

00:38:15 Notion Mail, Gmail, native integrations, and tools

00:39:43 MCP vs CLI and the cost of capability

00:44:13 When Notion uses MCP vs building its own integrations

00:47:43 The history of Notion’s agent harness rebuilds

00:55:35 Power users, public tools, and the setup agent

00:58:01 Self-fixing agents, permissions, and “flippy”

01:01:13 Pricing, credits, and choosing the right model automatically

01:09:01 Why Notion isn’t training its own frontier model

01:14:07 Retrieval, ranking, and search built for agents

01:17:27 Meeting Notes as data capture and workflow automation

01:21:18 Wearables, hardware, and Notion as the system of record

01:23:45 Outro

Transcript

[00:00:00] Alessio: Hey everyone. Welcome to the Latent Space podcast. This is Alessio founder of Kernel Labs and I’m joined by swyx, editor of the Latent Space.

[00:00:11] swyx: Hello. Hello. We’re back in the beautiful studio that, uh, Alessio has set up for us with Simon and Sarah from Notion. Welcome.

[00:00:18] Sarah Sachs: Thanks for having us.

[00:00:19] Alessio: Thanks for having us. Yeah.

[00:00:20] swyx: Congrats on the launch recently the custom agents, finally it’s here. How’s it feel?

[00:00:26] Sarah Sachs: We ship things slowly. So it had been in Alpha for a little bit and at the point at which is it’s an alpha, um, there’s a group of people that are making sure it’s ready for prod, and then there’s a group of people working on the next thing.

So sometimes some of these launches are a bit delayed satisfaction, so it’s quite nice to remind yourself all the work you did because we do have a habit of like. Being two or three milestones ahead. Uh, just ‘cause you have to be, you know, you can’t get complacent. Um, but it’s been great that people understood how this is helpful.

And I think that’s just easier in general building AI tools today than it was two, three years ago. People kind of get it and so that user education, um, there’s just, it was our most successful launch in terms of free trials and converting people and things like that. It was really successful, so yeah.

But there’s a lot to build.

[00:01:12] swyx: Making it free for three months helps.

[00:01:16] Sarah Sachs: Yep.

[00:01:17] Simon Last: It was definitely super exciting for me because it’s probably the fourth or fifth time that we rebuilt that.

[00:01:22] swyx: Yes.

[00:01:23] Simon Last: And I mean,

[00:01:24] swyx: you’ve been building this since like 20, 22.

[00:01:26] Simon Last: Yeah, I mean, like, it was even right when we got access to like GPT four in late 20 22, 1 of the first ideas we had is like, oh, okay, let’s make an agent that I, we used the word assistant at the time, there wasn’t really the word, the word agent yet, but, oh, we’ll give an access to all the tools the notion can do, and then it, we run in the background like, like do work for us.

And then we just tried that many times and it just. Was too early. Um,

[00:01:48] swyx: I need to force you to like double click on that. What is too early? What didn’t work?

[00:01:52] Sarah Sachs: We were fine to, like, before function calling came out. We were trying to fine tune with the Frontier Labs and with fireworks, like a function calling model on notion functions.

This is right when I joined. I joined because, um, we needed a manager as Simon was needed to be able to go on vacation. So, uh, that’s, that’s around when I joined, so you can speak much more to it.

[00:02:11] Simon Last: Yeah, we did partnerships with both philanthropic and open AI at different times, uh, to try to, at the time the, I mean, when we first tried, there wasn’t even a constant of like tools yet.

We, we sort of designed our own like, like tool calling framework and then we tried to fine tune the models to, uh, to use it over multiple turns. Um, and because it, it didn’t work well out the box, I think. Yeah. The models are just too dumb and the context thing was also way too short.

[00:02:37] Alsesio: Yeah.

[00:02:37] Simon Last: Um, and yeah, we just kind of banged our head against it for a long time.

Uh, unfortunately it was always like, there was always like sort of. Glimmers that it was working, but um, it never felt quite robust enough to be like a useful, delightful thing. Um, until I would say, uh, the big unlock was probably like Sonic 3.6 or seven, uh, early last year. And that’s when we started working on our agent, which we shipped last year.

Um, and then, and then uh, uh, custom agents, kinda a similar capability and that, that one just took longer because we, we just wanted to get the reliability up a lot higher. ‘cause it’s actually running in the background.

[00:03:14] Sarah Sachs: And the product interface of like permissions and understanding, you know, this custom agent is shared in a Slack channel with X group of people and has access to documents that are surfaced to Y group of people.

And the intersect experts, Y might not be whole. And so how do you build the product around making sure administrators understand that permissioning took multiple swings.

[00:03:35] Alsesio: Everything is hard back at the end of the day. Yeah. I’m curious, like when the models are not working, how do you inform the product roadmap of like, okay, we should probably build, expecting the models to be better at some reasonable pace, but at the same time we need to, you know, you had a lot of customers in 2022.

It’s not like you were a new company or like no user base.

[00:03:54] Simon Last: Yeah, I mean I think there’s always the balance of, you know, like you want to be a GI pilled and thinking ahead and building for where things are going. Uh, but also you wanna be like shipping useful things. And so we always try to like, like keep a balance there.

You know, we. We try to take clear, like a portfolio approach. You know, we’re always working on multiple projects and, and we’re always trying to work on, you know, maintaining things where that have already shipped, like, like shipping new things that are like eminently working well and make them really good.

And, and then we wanna always have a few projects that are a little bit crazy. Um,

[00:04:23] Alsesio: and what are the a GI peel projects that you have today? I’m curious about, uh, you don’t have to share exactly what you’re working on, but I’m curious what are things today that maybe in 18 months people will be like, oh, obviously this was gonna work

[00:04:35] Sarah Sachs: 18 months.

[00:04:37] Alsesio: Yeah, 18 months is, you know,

[00:04:37] Sarah Sachs: it’s a long time and Yeah. Yeah.

[00:04:39] Simon Last: I mean, there’s a number of things happening. I think one thing that’s becoming more clear is I think like, like, uh, coding agents are the kernel of EGI, sort of, everything is a coding agent. Mm-hmm. I think that’s, that’s sort of one, one direction.

Um, and then, yeah, the exciting thing about that is sort of your agent can sort of bootstrap its own software and capabilities and actually debug and maintain them. And so yeah, we’re, we’re, we’re thinking a lot about that. And then, yeah, like, like another category of things that I’m, I’m really excited about is like, uh, we call the software factory also.

People are using this, uh, this, this sort of word. Um, basically it just means can you create sort of like a, as automated as possible, a workflow for developing debugging. Mm-hmm. Merging, reviewing, and maintaining a code base and a service where there’s a bunch of agents working together inside, and like, like how does that work?

[00:05:28] Sarah Sachs: If you think back to your initial question, like, why did this take so long? I think something,

[00:05:32] swyx: I didn’t say that, but Yes. Okay. Go ahead.

[00:05:34] Sarah Sachs: Why, what, what changed over the three and half years of trying

[00:05:37] swyx: it? Exactly. Right. Because most people always say like, it didn’t work yet. Then reasoning models came, then it worked.

I was like, okay, let’s go a little

[00:05:43] Sarah Sachs: bit. That’s, I mean, that’s part of it, but I think the other part of it that I actually think is really what will set notion apart for every new capability is we have like. Two skills that are crucial when it comes to frontier capabilities. One is not letting yourself swim upstream.

So like quickly realizing if you’re just pressing against model capabilities versus not exposing the model to the right information, not having the right infrastructure set up. That and of itself is the skill of intuition. And the second is to see, okay, you’re not swimming upstream. Which direction is the river flowing and what is like, how do we think ahead about the product and start building it even if it’s not great yet, so that when it is there, we’re ready for it.

Right? And like those can sometimes feel like counterintuitive things. Like we can be trying to fine tune a tool calling model when they don’t exist yet. And that the trick is to not do that for too long, but realize that there was something there. And we’ve had a lot of things which like, um, we’re just like not swimming in the right direction with the streams.

I think we had multiple versions of transcription before we got meeting notes, right? Oh, I gotta talk

[00:06:39] swyx: about that. Yeah.

[00:06:40] Sarah Sachs: Yeah. Um, and so. I, I, I think that like we, we really closely partner with the Frontier Labs on capabilities and we also have to have strong conviction on, as those capabilities move.

Notion is about being the best place for you to collaborate and do your work. And how does that narrative change if the way that we work changes?

Yeah.

[00:06:58] swyx: Yeah. You told me you were a fan of the Agent Lab thesis, and this is, this is kind of it, right?

[00:07:02] Sarah Sachs: Right. I show that thesis to so many candidates. Like I have it as like micro chrome autofill.

Um, at this point, like it’s one of my most visitations

[00:07:10] swyx: because like, is this the, here’s why you should work in notion and not open, open eye. I, it’s like,

[00:07:14] Sarah Sachs: here’s, here’s what’s different about it.

[00:07:16] swyx: Yeah.

[00:07:16] Sarah Sachs: And here’s why. It’s not just a rapper. I actually think more and more people understand it’s not just a wrapper.

[00:07:21] swyx: Yeah.

[00:07:22] Sarah Sachs: Um, and by the way, like in the beginning, parts of what we build are wrappers on functionality. That works well, of course, but that’s not really the most, um. I would say that’s not the product that, that drives revenue. And that’s not necessarily always what users need.

[00:07:35] swyx: I mean, you know, notion is the AWS wrapper, but like the, the wrapper is very beautiful and like very, very well polished.

So

[00:07:40] Sarah Sachs: like the analogy,

[00:07:41] swyx: like

[00:07:42] Sarah Sachs: the analogy that I’ve been coming back to his Datadog in AWS

[00:07:45] swyx: Yeah.

[00:07:46] Sarah Sachs: So, uh, Datadog could not exist with, without cloud storage. Right. That it’s kind of fundamental that that works. Um, and AWS has like a CloudWatch product, but Datadog is an expert on understanding how people want observability on the products they launch.

And we’re experts in understanding how people wanna collaborate, and that’s really where our expertise lies.

[00:08:04] swyx: Totally.

[00:08:04] Sarah Sachs: Um, regardless of the tools that we use,

[00:08:07] Alsesio: I’m kind of curious how you think about implicit versus explicit expertise. I feel like Datadog is half and half implicit and explicit. It’s like they understand across markets and industries what engineering teams usually look for.

With notion, it’s almost like more of the expertise is at the edge because you as a platform, you’re like so horizontal that the end user is not really the same. Mm-hmm. Like with Datadog, the end user is always like, yeah, an engineering lead, a kinda like SRE related person with notion. It can be anything.

So I’m curious how you put that expertise into a product versus, you know, obviously it, WS cannot build notion. It’s, that doesn’t quite work in this case, but

[00:08:44] Simon Last: it’s, it’s a little bit differently shaped. I think, you know, a classic vertical SaaS, like the data is kind of like that. They understand their individual customer very deeply.

It’s kinda a narrow slice, um, notion has always been super horizontal. And our, our task has always been to sort of balance these two somewhat opposing forces of like, we’re listening to our customers and what they want us to build. It’s a broad slice. And then also we’re thinking about like, okay, how do we decompose what they want into, uh, nice primitives that are, that are really nice to use and we’ll, we’ll get us like as much bang for the buck as possible.

And then, you know. Maintain the whole system, make it all like, like super clean and nice to use.

[00:09:22] Sarah Sachs: We still have user journeys. I mean, we still focus on like core. I actually think the failure of our team is when we focus too much on what are cools that are, what are tools that are

[00:09:31] Simon Last: mm-hmm.

[00:09:31] Sarah Sachs: Cool tools. I actually think that’s when we make have the least velocity because you still need some sort of focus on a user journey.

So like for instance, we’ll all sit down every Friday and look at the P 99 of like the most token exhaustive custom agent transcript and just look at why it didn’t do well and cut a bunch of tasks. Like we still focus on like, this has, like this should work. Email triaging should work. Mm-hmm.

この記事をシェア

関連記事

AI News★42026年6月11日 19:42

Xebia:適切なデータ基盤なしでは AI エージェントは失敗する理由

Xebia のグローバル CTO、ニールス・ゼイルメーカー氏は、組織がプロセス加速のために AI エージェントを導入する場合、AI が利用可能な形でデータを整備することから始める必要があると指摘している。

AWS Machine Learning Blog★42026年6月11日 00:26

カーネルの手動調整を止める:Neuron エージェント開発が AWS Trainium の最適化を加速する方法

AWS は、大規模化する最先端 AI モデル向けに、ハードウェアの性能限界を引き出すための従来の手動カーネル調整に代わり、「Neuron エージェント開発」を活用することで、Trainium プロセッサの最適化効率とパフォーマンスを大幅に向上させる手法を発表した。

Amazon Science★42026年6月9日 04:00

実世界における自律型 AI の基盤

Amazon Science は、2026 年に AI が単なる知識を持つモデルから、物理世界で計画・ツール使用・多段階タスク実行を行う自律型エージェントへと転換する決定的な変化が訪れると発表しました。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む