フロンティア・エコシステムはオープンであるべき:Databricks の Matei Zaharia 氏と Reynold Xin 氏が語る理由
Databricks の創業者は、AI エージェント時代においてデータと AI を統合する「Lakehouse」の進化形としてオープンなエコシステムと LTAP(Lightweight Transactional Analytics Processing)の重要性を強調し、競合他社との差別化戦略を明らかにした。
キーポイント
AI エージェント時代のデータ基盤の転換
従来の「データをどこに置くか」という問いから、「エージェントが作業を行う瞬間に必要な文脈、権限、ロジックをどう開示するか」へとパラダイムシフトが必要であると指摘。
Omnigent とオープンなメタ・ハーネス
Databricks が開発中の「Omnigent」は、Claude Code や Cursor など多様なコーディングエージェントを統合・管理するためのオープンソース・メタ・ハーネスであり、ポータビリティやセキュリティの共通APIを提供する。
LTAP とデータベースアーキテクチャの再定義
従来の HTAP(ハイブリッドトランザクショナル分析処理)の課題を克服するため、すべてのクエリエンジンを統合するのではなく、ストレージ層を統一することで効率化を図る「LTAP」アプローチを提案。
競合優位性の源泉はコンテキスト
Frontier モデルのパフォーマンスがコモディティ化した際、企業の競争優位性はモデルそのものではなく、固有のデータ、ガバナンスされたアクセス権限、運用状態といった文脈(Context)に依存すると結論付けた。
企業の競争優位性はモデル性能から文脈へシフト
モデルの性能がコモディティ化される中、持続的な優位性は proprietary data や operational state などの企業固有のコンテキストに依存し、Databricks はこれを基盤とするエージェント用 OS として位置づけられている。
LTAP と HTAP の再定義
従来の OLTP と OLAP を分ける境界をなくす「HTAP」を実現する LTAP(Lake Transactional Analytics Platform)により、トランザクションデータをカラム指向フォーマットに直接書き込むことで、リアルタイムな分析とエージェントへの生データ提供が可能になる。
エージェントのセキュリティとコスト管理が重要課題
エージェントは機密文書の閲覧や外部パッケージのインストールなどを行うため、コンテキストに応じた状態管理ポリシー(stateful policies)による厳格な権限制御と、誤作動による高額請求を防ぐコスト管理が不可欠である。
影響分析・編集コメントを表示
影響分析
この議論は、AI エージェントが実社会で本格的に導入される未来において、単なるチャットボットの枠を超え、企業の業務システムと深く統合された「データ・アンド・AI オペレーティングシステム」の必要性を浮き彫りにしています。Databricks が従来の Lakehouse 概念を拡張し、エージェントのセキュリティや管理機能を標準化することで、業界全体のインフラストラクチャ基準を再定義する可能性が高く、Snowflake やベクトルデータベース市場を含む競合環境に大きな影響を与えるでしょう。
編集コメント
Databricks の創業者によるこの発言は、AI エージェント時代におけるインフラの在り方に関する極めて重要な指針を示しています。特に「モデル性能がコモディティ化する中で、企業固有の文脈こそが真の競争優位性となる」という視点は、今後の AI 戦略を考える上で不可欠な洞察です。
私たちは、AI エンジニアリングエコシステムにおける数百社の上場企業のうちの一つである Databricks が AIEWF に参加することを嬉しく思います。LS 購読者は割引を利用して、ラストバード価格を回避し、スポンサー提供の合計 5 万ドル以上のオファーにアクセスできます!
誰もがまだ Satya の「フロンティアエコシステム」に関する投稿について話していますが、今日のお客様のように実際に(現在 1750 億ドル規模の)フロンティアエコシステムとクラウドを構築した人はほとんどいません。
コーディングエージェントの上層部をオープンソース化することから、エージェント時代のためのデータベースの再考に至るまで、Databricks の共同創設者である Matei Zaharia と Reynold Xin は、同社をレイクハウスを超えた完全なデータおよび AI オペレーティングシステムへと押し上げています。このエピソードでは、Matei と Reynold が 2026 Data + AI サミットで swyx と共に、Omnigent、LTAP、Lakebase、エージェントセキュリティ、オープンフォーマット、Mosaic、そして AI エージェントが実際の業務を開始した際にデータベースがこれまで以上に重要になる理由について掘り下げます。
Omnigent について深く掘り下げていきます。これは Databricks のオープンソースメタハルネスで、Claude Code、Codex、Cursor、Pi、カスタムエージェント、および内部ツールにわたるエージェントの結合、制御、共有を可能にします。Matei は、コーディングエージェントとエンタープライズエージェントが同じ問題に直面する理由を説明します:移植性、コラボレーション、セッション履歴、セキュリティ、支出管理、そしてすべてのハルネスの上に共通 API が必要であるという点です。
次にレイノルドは、Databricks のデータベースの夢について解説します。なぜ CDC は脆すぎて「連続データ破損」を意味する冗談になるのか、なぜ HTAP がデータベース工学における聖杯とされてきたのか、そして Databricks がすべてのクエリエンジンを統合するのではなくストレージ層を統一することで LTAP の恩恵のほとんどを得られると考えている理由についてです。また、Databricks のインフラスケール、迅速なプロトタイピングを支える文化、技術系顧客とエンタープライズ顧客の違い、Databricks と Snowflake の比較、ベクトルデータベースがそもそも存在すべきだったのかという問い、Mosaic モデル戦略、Genie、AI Runtime、RL によるファインチューニング、そしてデータが適切な場所に置かれ、エージェントがその上に位置するようになると従来のソフトウェアは書き換えられるという仮説についても取り上げます。
Databricks はビッグデータ時代のために設立された企業です。バークレーの AMPLab から生まれた Spark が製品化され、最終的に Lakehouse へと発展したことで、企業は個別のデータレイク、データウェアハウス、ML プラットフォーム、ガバナンス層を必要としないという確信を得ました。彼らが必要としたのは、すべてのデータを格納し、推論できる単一のオープンな基盤でした。
それから多くのことが変化しましたが、データの重要性はさらに高まっています。データはもはや追跡して随時分析するだけのものではなく、エージェントが行動するために必要な文脈そのものです。そのため、枠組みは「すべてのデータをどこに置くか」から、「AI システムが作業を行っているまさにその瞬間に、どの状態のスライス、履歴、権限、ビジネスロジックを公開すべきか」という問いへとシフトしました。
フロンティアモデルのパフォーマンスがコモディティ化した場合、持続的な優位性はそれらを取り巻く企業固有の文脈になります:独自データ、管理されたアクセス、運用状態、トランザクションログ、ワークフロー、フィードバックループです。これにより、Databricks は完璧な位置にいます。
2026 年 Data + AI サミットを直後に控えた今、同社は Genie One、Omnigent、LTAP など多数の発表を通じて同等のスピードで進化しており、その新事業における中核的な使命を示しています:Databricks はエンタープライズエージェントのためのオペレーティングシステムになることを目指しているのです。
モデルは十分に良くなってきましたが、エージェントが有用なのは、適切な文脈、権限、メモリ、状態、コスト制御、そして生きたビジネスデータへのアクセスを持っている場合に限られます。根本的に、本番環境における大幅なモデルパフォーマンスの向上はシステムの問題であり、私たちデータ担当者が解決するために驚くほど準備ができている課題です!
以下について議論します:
なぜ Databricks は既存の AI エージェントの上にメタハルネスとして Omnigent を構築したのか
コーディングエージェントとカスタムエンタープライズエージェントが同じインフラストラクチャを必要とする理由
エージェントセッション、ファイル、ストリーム、ツール呼び出し、キャンセルのための共通 API
永続的なセッション、クラウドサンドボックス、共有、検索、コラボレーションがなぜ重要なのか
なぜ Databricks は Omnigent を独自技術として保持せずオープンソース化したのか
Databricks 内部でのエージェント利用、クラウドサンドボックス、コーディングワークフロー
Databricks のスケール:1 日あたり 5000 万〜6000 万台の仮想マシンと、朝食前のエクサバイト規模
- なぜ Databricks は Omnigent をオープンソース化したのか
- エンタープライズエージェントの共通基盤の重要性
- データエンジニアリングにおけるシステム課題の解決
なぜエージェントのセキュリティには文脈と状態を考慮したポリシーが必要なのか
エージェントが機密ドキュメントを読み込み、侵害された npm パッケージをインストールし、データを漏洩する可能性について
エージェントがログを読むだけで 500 ドルを浪費する可能性がある場合、支出管理がなぜ重要になるのか
コーディング・エージェントの分析、品質、スキル、および支出に関するスタートアップの機会
LTAP と Lakebase、そして Databricks がデータベーススタックの見直しを望む理由
OLTP と OLAP、CDC(Change Data Capture:変更データキャプチャ)、そしてなぜデータパイプラインが深夜 3 時に破綻するのか
なぜ HTAP(Hybrid Transactional/Analytical Processing:ハイブリッドトランザクション・分析処理)は歴史的にデータベース工学の聖杯とされてきたのか
なぜ Databricks は LTAP を「正しく行われた HTAP」と考えるのか
トランザクショナルデータを列指向フォーマットに書き込むことが、どのように分析を変化させるのか
なぜエージェントにはテレメトリだけでなく、データベースからの生きた運用コンテキストが必要なのか
Databricks が膨大なプロセスなしで戦略的システムをプロトタイプ化する手法
エンタープライズ顧客とテック企業顧客の違い、ガバナンス、調達プロセス、そして DIY(Do It Yourself:自分でする)文化
データベースエンジンを書き換えることによる「2 番目のシステム症候群」のリスク
10 年間にわたるトレースと数兆データポイントからデータベースエンジン構築に至る道のり
なぜベクトルデータベースは別のカテゴリーとして存在すべきではなかったのか
オープンフォーマットと AI が、Snowflake との競争をどのように変えたのか
Mosaic の物語、DBRX、Genie、ドキュメント解析モデル、および専門化されたモデルトレーニングについて
なぜモデルのカスタマイズや RL(Reinforcement Learning:強化学習)ファインチューニングが主流になる可能性があるのか
なぜ「データをそこに持ち込み、その上にエージェントを貼り付ける」というアプローチが、従来のソフトウェアを書き換える可能性があるのか
Matei Zaharia
LinkedIn: https://www.linkedin.com/in/mateizaharia
X: https://x.com/matei_zaharia
Reynold Xin
LinkedIn: https://www.linkedin.com/in/rxin
X: https://x.com/rxin
Databricks
ウェブサイト:https://www.databricks.com
X: https://x.com/databricks
タイムスタンプ
00:00:00 イントロダクション
00:02:22 オムニジェントとエージェントインフラストラクチャ層
00:08:39 エージェントクラウド、共通 API、そしてオープンソース
00:16:52 Databricks のスケールと内部 AI ワークフロー
00:18:03 エージェントセキュリティ、ガバナンス、および支出管理
00:27:34 LTAP とデータベースの夢
00:30:30 CDC、HTAP、そしてなぜデータパイプラインが破綻するのか
00:34:05 Lakebase、Parquet、そしてエージェントのための生データ
00:36:47 迅速なプロトタイピングの文化を持つ Databricks
00:43:40 ドリームエンジンとデータベーススタックの書き換え
00:51:02 ベクトルデータベース、クエリエンジン、および LTAP
00:52:36 Databricks と Snowflake の比較
00:57:48 Mosaic、DBRX、Genie、そして専門化されたモデル
01:03:11 コンテキスト、AI ランタイム、および RL 微調整
01:06:15 なぜデータとエージェントがソフトウェアを書き換える可能性があるのか
01:07:09 クロージング・スローティング
トランスクリプト
イントロダクション:Databricks、Data + AI サミット、そして創業者のダイナミクス
Swyx [00:00:00]: Databricks の Matei と Reynold さん、Latent Space へようこそ。
Reynold Xin [00:00:06]: こんにちは、お招きいただきありがとうございます。
Swyx [00:00:07]: はい。
Matei Zaharia [00:00:08]: はい、本当にありがとうございます。
Swyx [00:00:09]: お時間を割いていただきありがとうございます。Databricks の Data AI サミットが開催中とのことですが、皆さんが初めて開催されたサミットにはたった 50 人しか参加されなかったと先ほどお聞きしました。
Reynold Xin [00:00:17]: はい、そうです。
Swyx [00:00:17]: ベルギーで
Reynold Xin [00:00:18]: ベルギーの小さなミートアップだったと思います
Matei Zaharia [00:00:19]: はい
Reynold Xin [00:00:19]: 一緒に開催して
Matei Zaharia [00:00:20]: 私たちはそうしたチュートリアルを行っていて、はい、ただ Spark を人々に教えるだけでした。
Swyx [00:00:23]: はい。もちろん今では、世界で約 10 万人、対面でも 3 万人規模という headline number(主要な数値)になっていますね。
Swyx [00:00:30]: これは信じられないほど壮大なコミュニティです。さっき基調講演を拝見しました。
Swyx [00:00:35]: Ali はまさに、あの頃すでにこんな素晴らしい CEO になるだろうと誰もが思っていたのでしょうか?それとも、あの頃の Ali がこんなに優れたプレゼンターになるとは誰も予想していなかったのでしょうか?
Reynold Xin [00:00:42]: おや
Swyx [00:00:42]: こんなに素晴らしいプレゼンターだと。
Reynold Xin [00:00:43]: どう思いますか?
Matei Zaharia [00:00:44]: 創業者たちのグループの中では、彼がこの役割で最も適任であることは明らかでした。私はそう思っています。
Swyx [00:00:50]: はい。
Matei Zaharia [00:00:50]: そして結果的に素晴らしいものになりました。彼は会社を成長させるための多くのトピックについて、非常に早く習得しました。彼はただ入り込んで、それを勉強し、すべての専門家と話をします。たとえその人を雇うことができない場合でも、財務や営業などについて十分な知識を得て、そこからスタートするのです。
Swyx [00:01:09]: はい。
Reynold Xin [00:01:10]: 彼は明らかに非常に高い IQ と EQ を持っていますが、しかし今日の Ali は、10 年前の Ali とは全く異なります。彼がこの点に到達するためにどれほどの努力を積み重ねてきたか、それは計り知れません。
Swyx [00:01:20]: はい、私にとって彼に最も魅力的なのは、彼がおかしいということです。つまり、それは、それは、それは
Matei Zaharia [00:01:26]: それは本当です、はい
Swyx [00:01:26]: データウェアハウス(data warehouses)について冗談を言うのは難しいものです
Reynold Xin [00:01:30]: 深刻な話題について
Swyx [00:01:31]: セキュリティ(security)
Matei Zaharia [00:01:32]: はい
Swyx [00:01:32]: そのほかの諸々です。
Matei Zaharia [00:01:33]: ああ、もちろんそうですよ。
Swyx [00:01:34]: はい。それで皆さんは一連の新しいものを立ち上げました。すべてをカバーするわけではないので、少しだけ名前を挙げておきます。Omnigentt、あなたのベビーです。LTAP、これもあなたのベビーで、あなたのドリームエンジン(dream engine)です。
Swyx [00:01:47]: また、Genie や CustomerLake についても取り上げます。また、Panther を買収しましたね。
Matei Zaharia [00:01:52]: はい
Swyx [00:01:52]: Open Sharing、そして Unity AI Gateway です。これらの多くは、Databricks がやるべきこととして予想されるものだと思います。ロードマップの一部のようなものです。あなたのカテゴリーに属するすべての企業が似たようなものを抱えています。しかし、おそらく二人が率いているのは、最も独自性があり差別化された二つのイニシアチブです。
Omnigent とエージェントインフラストラクチャレイヤー(Agent Infrastructure Layer)
Swyx [00:02:09]: 現状の風景の中で。もしかしたら Omnigentt から始めましょうか?これについて詳しく掘り下げていきます。私は、多くの人がこのメタハネス(meta harness)コンセプトを探求していると考えています。
Matei Zaharia [00:02:21]: はい、完全に同意します。
Swyx [00:02:21]: そこに至った理由は何かですか?
Matei Zaharia [00:02:22]: はい。いくつかの潮流が収束したことで、新しいものが必要だと感じているのだと思います。まず一つ目は、社内で展開されているコーディングエージェントの情報です。私たちは非常に優れた開発インフラチームを持っており、彼らは「Isaac」というものを構築しました。これは Claude Code や Codex のラッパーのようなもので、Web 上のサンドボックス上や、開発マシン、ノートパソコンなど、あらゆる場所でこれらを利用できるようにします。そして、そこには様々な機能が追加されています。さらに、より高度なエンジニアたちは、多数のエージェントを組み合わせた独自のワークフローを構築し、その上に独自のカスタム UI を実装したり、さらにはその上にもレイヤーを重ねたりしていました。
もう一つの潮流は、私たちがエージェントを開発していることです。私が率いる研究チームでは、「Genie」というデータサイエンス用エージェントをリリースしました。また、様々な用途のために多くの内部向けエージェントも構築しています。さらに、顧客向けのものも多数あります。そしてこれらすべてが、数ヶ月ごとに「モデルやハーンチ(制御基盤)を切り替える必要がある」という課題に直面していました。加えて、セッションの共有、履歴の保持、検索機能といったコラボレーションのためのレイヤーがなければ、エージェントは完全に役に立たないものになってしまいます。
私はこれらの両方の文脈について少し考えました。最初は人々は奇妙に思いました。「なぜコーディングエージェントとカスタムエージェントを同じものに統合するのか」というのです。しかし私は、これは同じ問題であり、重要なのはセキュリティを考慮して制御可能にしつつ、異なる環境間でポータブルな形でエージェントを提供できる仕組みを作ることだと答えました。
その後、いくつかの実験としてプロトタイプを作成しました。確かに機能することを確認し、実際に本格的に構築することにしました。
Swyx [00:04:06]: このアーキテクチャ(architecture)は、過去のキャリアにおいて何かと対応するものがあるのか気になります。
Matei Zaharia [00:04:11]: はい。
Swyx [00:04:11]: 私はいつも、多くのことがオペレーティングシステム(OS)に遡るのだと考えています。
Swyx [00:04:18]: 多くのオペレーティング
Matei Zaharia [00:04:19]: はい。
Swyx [00:04:20]: システムはデータベース(database)に遡るものであり、
Matei Zaharia [00:04:21]: つまり
Swyx [00:04:21]: またはその逆ですね。
Matei Zaharia [00:04:22]: 確かに、私はこれがネットワークプロトコルやインターネットプロトコル(Internet Protocol)とも深く結びついていると考えています。また、
Swyx [00:04:29]: エンティティ間の通信です。
Matei Zaharia [00:04:30]: はい。データ共有(data sharing)についても取り組んできましたが、これはおそらく視聴者の多くはご存じないでしょう、彼らがもし
Swyx [00:04:36]: はい、オープンプロトコル(open protocol)という用語です。
Matei Zaharia [00:04:37]: はい。
Swyx [00:04:38]: オープン共有。オープン共有です。
Matei Zaharia [00:04:38]: オープン共有です。
Swyx [00:04:39]: そうです。
Matei Zaharia [00:04:39]: はい。つまり、ある企業が特定のテーブルを管理している状況を想像してください。例えばウォルマートのような企業です。彼らは各店舗の在庫や販売実績といったデータを保持しています。そしてサプライヤーも存在し、彼らは必要なタイミングで正確に生産して配送することを望んでいます。つまり、リアルタイムでそのテーブルへのアクセス権限を持ちたいと考えているのです。したがって、メールのやり取りや Excel シート、電話連絡を行う代わりに、なぜリアルタイムでそのテーブルの一部を共有できないのでしょうか?そうすれば、サプライヤーはそれをクエリし、自社のデータと結合して、何を配送すべきかを判断できます。これは、"vibe coding(直感的なコーディング)" で何でも瞬時に作れるようになった今日において、なぜプロトコルや API、ソフトウェアの設計が必要なのかという問いにつながります。オンデマンドで "vibe coding" すれば十分ではないのか?しかし、異なる速度で動く複数の当事者が何かを構築しており、その上に調整層を維持したいという相互運用性の文脈においては、設計して構築する必要があります。これは、エージェント同士が対話し、ユーザーがエージェントやツールと対話する様子に似ています。
Agent Clouds, Cloud Sandboxes, and Keeping Sessions Alive
Swyx [00:05:42]: レイノルド、他にコメントや異なる視点はおありですか?
Reynold Xin [00:05:46]: ちなみに、どの恩恵のセットが重要になるかについて議論がありましたが、このプロジェクトを決めた頃、私は Matei にこう話していました。「ねえ、ちょうど私が非連続でコーディングをしていた一週間があったんです」
Swyx [00:06:00]: 朝起きてから寝るまでずっと、Claude のセッションや Codex のセッションを見ていました。特にイライラしたのは、ノートパソコンを開きっぱなしにしておかなければならなかったことです。
Swyx [00:06:12]: 私は医師の診察に向かう車で、この作業が完全に機能し続けるように確認したかったことを覚えています。
Matei Zaharia [00:06:18]: ところで、あなたがそうおっしゃるのを聞いて安心しました。私は「自分が馬鹿者で、こんなことをしているのか」と思っていたからです。
Swyx [00:06:25]: はい。正直に言うと、運転中にノートパソコンをスマホにテザリングしていました。
Matei Zaharia [00:06:29]: ふーん。
Swyx [00:06:29]: 横に置いておいて、信号が赤になるとすぐにノートパソコンの画面を見ていました。
Matei Zaharia [00:06:35]: そうですね。
Swyx [00:06:35]: それで、あまりにも馬鹿げていると感じました。
Matei Zaharia [00:06:37]: はい。
Swyx [00:06:37]: 暗黒時代に戻ったような気分でした。
Matei Zaharia [00:06:39]: はい。
Swyx [00:06:40]: プログラミングにおいて、このコーディングの時代から得られる生産性の向上は素晴らしいものですが、はい。
Matei Zaharia [00:06:45]: クラウド(cloud)って聞いたことありますか?
Swyx [00:06:47]: はい。
Swyx [00:06:48]: 私にとっては信じられないことでした。
Matei Zaharia [00:06:49]: ああ、あなたが取り組んでいたのはサンドボックスですか?それともその前でしたか?
Swyx [00:06:52]: サンドボックスです。
Matei Zaharia [00:06:53]: なるほど。
Swyx [00:06:54]: 私は取り組んでいまして、
Matei Zaharia [00:06:54]: つまりあなたは、
Swyx [00:06:55]: 私は非常に異なる角度からアプローチしていました。「クラウドのサンドボックスをシャットダウンしないようにし、すぐに取得できるようにしよう」と。ただし、エージェントセッションを実行するためだけではありません。
Matei Zaharia [00:07:06]: そうですね。
Swyx [00:07:06]: 開発環境としても機能させるためです。私はその週に個人的にそれを構築しており、その過程でさまざまな問題に直面し、その後、
Matei Zaharia [00:07:15]: はい。
Swyx [00:07:15]: Matei 宛てのドキュメントを作成しました。そこには「実際の環境が果たすべき機能の願望リスト」のような内容でした。彼はほぼすべての項目を実装してくれたと思います。
Matei Zaharia [00:07:22]: はい。
Swyx [00:07:22]: すべてを実装してくれました。
Matei Zaharia [00:07:23]: はい、Reynolds の発言を覚えています。私の最初のプロトタイプではエージェントとのチャット機能だけだったのですが、彼は「シェルを開ける必要がある。自分のシェルで、ファイルの一覧表示やログの末尾を追跡(tail)するなどの操作ができるように」と言いました。だから
Swyx [00:07:36]: メインフレームへの SSH 接続ですね。
Matei Zaharia [00:07:37]: はい。現在はそれが可能です。
Swyx [00:07:39]: ログの末尾を追跡できます。
Matei Zaharia [00:07:40]: はい。
Matei Zaharia [00:07:41]: はい。
Swyx [00:07:41]: あと、私が以前お尋ねした別の点ですが、私はまだ、Markdown ファイルをレンダリングする唯一の目的で Cursor を使用しています。
Matei Zaharia [00:07:48]: ふーん。はい。
Swyx [00:07:49]: だから、「Markdown ファイルを表示して適切にレンダリングする方法さえあれば、別のツールはもう不要だ」と言いました。
Matei Zaharia [00:07:53]: はい。
Swyx [00:07:53]: 正しく表示されれば、別々のツールは必要ないんです。
Matei Zaharia [00:07:55]: はい。
Swyx [00:07:56]: あなた方もそれを組み込まれたと思いますよ。
Matei Zaharia [00:07:57]: はい、そうです。私たちはそれを実装しました。はい。多くのエンジニアが自分好みのコーディング環境を構築していましたが、その後、全員が口を揃えてこう言いました。「私にとっては素晴らしいものを構築したが、チームの他のメンバーは使えない。なぜなら、共同作業のためのサーバーを持っていないからだ」と。これが Omnigent を設置しようとした理由です。サーバーを持ち、そこでセキュリティを設定できるようにするためです。Google などでログインしたり、安全にファイルを共有したりできます。そして、ここで多くの他のエージェントが壁にぶつかる現象を目にしてきました。人々は素晴らしいエージェントのプロトタイプを構築したと思うのですが、セキュリティチームの規制により、重要なデータへの接続などが許可されていないのです。
Omnigent Architecture, Open Source, and Common APIs
Swyx [00:08:38]: はい。
Matei Zaharia [00:08:38]: はい。
Swyx [00:08:39]: はい。この時点で、YouTube で視聴されている方のために、ここにアーキテクチャの構造を示す画像を掲載し、少し詳しく解説していきたいと思います。ソフトウェアについて話すとき、非常に抽象的になりがちなので、具体的に何を指しているのかを理解していただきたいのです。オープンソースでこのプラットフォーム全体を開発され、統一された API を持つランナーコンポーネントとサーバーコンポーネントを設計されました。他の要素ももちろん、永続化層や計算層などすべて接続可能です。これはまさにクラウド全体であり、エージェントクラウドです。
Matei Zaharia [00:09:12]: はい。これらを実行するためのコンポーネントが備わっています。多くのアクションは、エージェントをデプロイするマシン上で行われます。つまり、そこに存在するものは何でも実行可能です。はい、ホストしておくべき最小限の構成としては、コラボレーティブエージェント(共同作業型エージェント)とそれに対応するサーバーが必要だと考えています。オープンソース化した理由の一つとして、エージェントを構築する誰もが、そこから始めてカスタマイズできるアプリケーションを提供できる点が挙げられます。Databricks でもそのような事例が見られました。あるチームが優れたエージェントアプリを作成すると、他のチームから「私のエージェントでも使えますか?」と問い合わせが来るのです。
Swyx [00:09:45]: はい、私たちも 5 つや 6 つの異なるアジェンティックフレームワークを持っていました。
Matei Zaharia [00:09:48]: はい
Swyx [00:09:48]: 各チームがそれぞれ構築したものです。彼らはすべてほぼ同じことをしています。はい、必要です。人々は Forkit で動作する何かを持ちたいと考えており、オープンソースで提供することもできます。はい、これもまた Databricks にとって興味深い質問の一つでした。つまり、何をオープンソースにするか?何をプロプライエタリ(独占的)にするか?これは Spark に遡る話ですね。
Matei Zaharia [00:10:05]: はい。
Matei Zaharia [00:10:06]: そうです。何かをオープンソースにする理由の一つは、それがネットワーク効果を生むレイヤーになると考えられる場合です。多くの人の利用によって恩恵を受けるからです。
原文を表示
We’re excited to have Databricks join us at AIEWF, among hundreds of the top companies in the AI Engineer ecosystem. LS subscribers can use their discount to get past the late bird pricing and access over $50k in sponsor offers!
Everyone is still talking about Satya’s Frontier Ecosystems post, but few have actually built a (now $175 billion) frontier ecosystem and cloud like our guests today.
From open-sourcing the layer above coding agents to rethinking databases for the agent era, Databricks cofounders Matei Zaharia and Reynold Xin are pushing the company beyond the lakehouse into a full data-and-AI operating system. In this episode, Matei and Reynold join swyx at the 2026 Data + AI Summit to unpack Omnigent, LTAP, Lakebase, agent security, open formats, Mosaic, and why databases may matter more than ever once AI agents start doing real work.
We go deep on Omnigent: Databricks’ open-source meta-harness for combining, controlling, and sharing agents across Claude Code, Codex, Cursor, Pi, custom agents, and internal tools. Matei explains why coding agents and enterprise agents run into the same problems: portability, collaboration, session history, security, spend controls, and the need for a common API above every harness.
Then Reynold walks through Databricks’ database dream: why CDC is brittle enough to joke that it means “continuous data corruption,” why HTAP has been the holy grail of database engineering, and why Databricks thinks LTAP gets most of the benefits by unifying the storage layer instead of collapsing every query engine. We also cover Databricks’ infrastructure scale, the culture behind rapid prototyping, the difference between tech and enterprise customers, Databricks vs Snowflake, whether vector databases should have ever existed, the Mosaic model strategy, Genie, AI Runtime, RL fine-tuning, and the thesis that traditional software gets rewritten once the data is in the right place and agents sit on top.
Databricks began as a company for the big data era. The origination of Spark from the Berkeley AMPLab which eventually turned into the product Lakehouse convinced enterprises that they didn’t need a separate data lake, warehouse, ML platform, and governance layer. They just needed one open foundation where all of their data could live and be reasoned over.
Since then a lot has changed, but data has only become more important. Data is no longer something you keep track of and analyze ad hoc, it’s the necessary context agents need in order to act. So the framing has shifted from “where do we put all of our data?” to “how do we expose the right slice of state, history, permissions, and business logic to an AI system at the exact moment it’s doing work?”
If frontier model performance becomes commoditized, the durable advantage then becomes the company-specific context around them: proprietary data, governed access, operational state, transaction logs, workflows, and feedback loops. Which makes Databricks positioned perfectly.
Now coming fresh off the Data + AI Summit 2026, the company is moving just as fast to keep up, announcing Genie One, Omnigent, LTAP, and many more, indicating a central mission in its newer work: Databricks is trying to become the operating system for enterprise agents.
Models are getting good enough, but agents are only useful if they have the right context, permissions, memory, state, cost controls, and access to live business data. Fundamentally it appears that significantly better model performance in production is a systems problem, one that data guys like us are remarkably well prepared to solve!
We discuss:
Why Databricks built Omnigent as a meta-harness above existing AI agents
Why coding agents and custom enterprise agents need the same infrastructure
The common API for agent sessions, files, streams, tool calls, and cancellation
Why persistent sessions, cloud sandboxes, sharing, search, and collaboration matter
Why Databricks open-sourced Omnigent instead of keeping it proprietary
Databricks’ internal agent usage, cloud sandboxes, and coding workflows
The scale of Databricks: 50–60 million virtual machines a day and exabytes before breakfast
Why agent security needs contextual and stateful policies
How an agent could read confidential docs, install a compromised npm package, and leak data
Why spend control matters when an agent can burn $500 reading logs
Startup opportunities around coding-agent analytics, quality, skills, and spend
LTAP, Lakebase, and why Databricks wants to rethink the database stack
OLTP vs OLAP, CDC, and why data pipelines break at 3 a.m.
Why HTAP has historically been the holy grail of database engineering
Why Databricks thinks LTAP is “HTAP done right”
How writing transactional data into column-oriented formats changes analytics
Why agents need live operational context from databases, not just telemetry
How Databricks prototypes strategic systems without endless process
Enterprise vs tech customers, governance, procurement, and DIY culture
The “second system syndrome” risk of rewriting a database engine
Building a database engine from a decade of traces and quadrillions of data points
Why vector databases should never have been a separate category
Why open formats and AI changed the race with Snowflake
The Mosaic story, DBRX, Genie, document parsing models, and specialized model training
Why model customization and RL fine-tuning may become mainstream
Why “get the data there, slap some agent on top” may rewrite traditional software
Matei Zaharia
LinkedIn: https://www.linkedin.com/in/mateizaharia
X: https://x.com/matei_zaharia
Reynold Xin
LinkedIn: https://www.linkedin.com/in/rxin
X: https://x.com/rxin
Databricks
Website: https://www.databricks.com
X: https://x.com/databricks
Timestamps
00:00:00 Introduction
00:02:22 Omnigent and the Agent Infrastructure Layer
00:08:39 Agent Clouds, Common APIs, and Open Source
00:16:52 Databricks Scale and Internal AI Workflows
00:18:03 Agent Security, Governance, and Spend Controls
00:27:34 LTAP and the Database Dream
00:30:30 CDC, HTAP, and Why Data Pipelines Break
00:34:05 Lakebase, Parquet, and Live Data for Agents
00:36:47 Databricks’ Culture of Fast Prototyping
00:43:40 The Dream Engine and Rewriting the Database Stack
00:51:02 Vector Databases, Query Engines, and LTAP
00:52:36 Databricks vs Snowflake
00:57:48 Mosaic, DBRX, Genie, and Specialized Models
01:03:11 Context, AI Runtime, and RL Fine-Tuning
01:06:15 Why Data + Agents May Rewrite Software
01:07:09 Closing Thoughts
Transcript
Introduction: Databricks, Data + AI Summit, and Founder Dynamics
Swyx [00:00:00]: Matei and Reynold from Databricks, welcome to Latent Space.
Reynold Xin [00:00:06]: Hey, thanks for having us.
Swyx [00:00:07]: Yeah.
Matei Zaharia [00:00:08]: Yeah, thanks so much.
Swyx [00:00:09]: thanks for taking time out. You have your Databricks, Data AI Summit going on. You were just telling me how the first summit that you guys ran was just 50 people
Reynold Xin [00:00:17]: Yeah, it was
Swyx [00:00:17]: in Berkeley
Reynold Xin [00:00:18]: little meetup at Berkeley, I think
Matei Zaharia [00:00:19]: Yeah
Reynold Xin [00:00:19]: put together
Matei Zaharia [00:00:20]: We were doing these tutorials and, yeah, just teach people Spark.
Swyx [00:00:23]: Yeah. obviously now it’s like, I think like the headline number’s like 100,000 people around the world, 30,000 in person.
Swyx [00:00:30]: it’s a crazy
Matei Zaharia [00:00:31]: Amazing
Swyx [00:00:31]: community. Well, I just saw the keynote.
Swyx [00:00:35]: Ali’s just. Did was it obvious or that back when that Ali would be, like, such a great, like, CEO? Like
Reynold Xin [00:00:42]: Oh
Swyx [00:00:42]: such a great presenter?
Reynold Xin [00:00:43]: What do you think?
Matei Zaharia [00:00:44]: I think among our group of founders it was clear that, I think he’d be the best at this.
Swyx [00:00:50]: Yeah.
Matei Zaharia [00:00:50]: And yeah, it turned out great. And he’s, he’s ramped up on so many topics growing a company. He would just go in and, like, study it and, be talk to all the experts. Like, even if he can’t hire the person, learn enough about, like, finance and sales and whatever it was, and, and go from there. Yeah.
Swyx [00:01:09]: Yeah.
Reynold Xin [00:01:10]: he’s obviously very high IQ and a very high EQ, but it wasn’t. Like, Ali today is quite different from Ali from, like 10 years ago. I think there’s a lot of work that he put in to, get to this point.
Swyx [00:01:20]: Yeah. no, to me the most appealing thing about him is that he’s funny. And like, it, it’s, it’
Matei Zaharia [00:01:26]: It’s true, yeah
Swyx [00:01:26]: it’s hard to make jokes about, data warehouses
Reynold Xin [00:01:30]: About serious topics
Swyx [00:01:31]: security
Matei Zaharia [00:01:32]: Yeah
Swyx [00:01:32]: what have you.
Matei Zaharia [00:01:33]: Oh, yeah. That’s for sure.
Swyx [00:01:34]: Yeah. So you guys launched a whole bunch of things. I’ll, I’ll just name check briefly, the stuff because we’re not gonna cover everything. Omnigentt, your baby. LTAP, your baby, your dream engine.
Swyx [00:01:47]: we’re also gonna cover Genie, cover CustomerLake, you acquired Panther
Matei Zaharia [00:01:52]: Yeah
Swyx [00:01:52]: Open Sharing, and there’s Unity AI Gateway. A lot of these, I think, like, are things that you would expect a Databricks to do. It’s, it’s like part of the roadmap. Everyone in your category has similar things. But I think, probably the two of you are leading the two most unique and differentiated initiatives
Omnigent and the Agent Infrastructure Layer
Swyx [00:02:09]: on, in the landscape. Maybe we’ll start with, Omnigentt we’ll, we’ll, we’ll, we’ll go into it. I do think that a lot of people are exploring this meta harness concept.
Matei Zaharia [00:02:21]: Yeah, totally.
Swyx [00:02:21]: What led you to it?
Matei Zaharia [00:02:22]: Yeah. There were a couple of, like, converging lines, which I think is a good sign that you need something new. So on the one hand, there’s all the coding agent info internally. We have really great, dev infra team. they built something called Isaac, that’s like a wrapper on Claude Code and Codex, and, lets you use them either on the web in, like, sandboxes or, just on your dev machine or on your laptop or whatever. And then, they were adding all kinds of stuff there. And we saw all the more advanced engineers like, were building their own workflows with tons of agents, and they were building their own UIs and stuff on top or even on top of that. And then the other one was, like, us building agents. We ship this, like, data science agent called Genie on the research team, which I lead. We also build a lot of internal ones for various things, and then we have all the customer ones. And all of them running into this thing of like, “Oh, I need to switch model and harness and so on,” every few months. Plus the agent is, like, completely useless if you can’t share sessions with someone and have history and have search and all this, like, layer on top of it for collaboration. I thought a bit about it from both contexts and, at first people thought it was weird. They’re like, “Why are you doing coding agents and custom agents in the same thing?” But I said it’s, it’s the same problems and, you just wanna build the stuff that lets you deliver the agent, maybe control it if you care about security, and, make it portable across things. And then we prototyped some things as experiments. We saw, yeah, we can make it work, and then we built that for real.
Swyx [00:04:06]: I’m wondering if this let’s call it architecture
Matei Zaharia [00:04:11]: Yeah
Swyx [00:04:11]: maps to anything in your careers in the past. like I always think about how a lot of things just tie back to operating systems.
Swyx [00:04:18]: A lot of operating
Matei Zaharia [00:04:19]: Yeah
Swyx [00:04:20]: systems tie back to databases,
Matei Zaharia [00:04:21]: So
Swyx [00:04:21]: or the other way around
Matei Zaharia [00:04:22]: so the thing, I do think it ties a lot to, like, network protocols, internet protocol. we also
Swyx [00:04:29]: Communication between entities.
Matei Zaharia [00:04:30]: Yeah. We did stuff with, like, data sharing also, which is probably, most viewers probably won’t know unless they’
Swyx [00:04:36]: Yeah, open protocol is the term.
Matei Zaharia [00:04:37]: Yeah.
Swyx [00:04:38]: Open sharing. Open sharing.
Matei Zaharia [00:04:38]: Open sharing.
Swyx [00:04:39]: Yes.
Matei Zaharia [00:04:39]: Yeah. So it’s like you have a company, you maintain some table, like let’s say like a Walmart or something. They have like the, inventory and what’s been sold in each store. And then you also have suppliers, and they would love to produce more things and ship them, like, exactly the moment you need them. So they would love, like, real-time access to your table. So instead of like sending emails around or Excel sheets or phone calls, why can’t you share like a view of that table in real time with them? Then they query, they, join it with their data, and they decide what to send. So it’s one of these things where you, like you might ask like today since we can vibe code anything so fast, why do we even need to design like protocols or APIs or software? Why can’t you just vibe code things on demand? But for this type of interoperability where multiple parties that are moving at different speeds are building stuff and you still want some layer on top to coordinate, you do wanna design it and build it. So it reminds me of that, like agents talking to each other and, users talking to agents and tools.
Agent Clouds, Cloud Sandboxes, and Keeping Sessions Alive
Swyx [00:05:42]: Reynold, any other comments alternative viewpoints?
Reynold Xin [00:05:46]: I think, by the way, we had a debate on exactly which set of benefits would, matter a lot, and I think around the time we decided to do this thing I was telling Matei, “Hey,” it just happened to be there’s a particular week that I was coding nonstop
Swyx [00:06:00]: from the moment I woke up to, like, the moment I went to bed, I was, like, looking at my Claude sessions, my Codex sessions. And one of the things that was particularly annoying was having to keep my laptop open.
Swyx [00:06:12]: I was driving to a doctor’s appointment, and I remember because I wanted to make sure the whole thing continues working.
Matei Zaharia [00:06:18]: But by the way, it’s so comforting to hear you say that because I’m like, “I don’t know if I’m a clown and I’m doing this or like.”
Swyx [00:06:25]: Yeah. Like honestly, I was driving and I was tethering my laptop to my phone.
Matei Zaharia [00:06:29]: huh.
Swyx [00:06:29]: Keeping it on the side. Whenever I hit a red light, I started looking at what’s going on my laptop.
Matei Zaharia [00:06:35]: Yeah.
Swyx [00:06:35]: And I just felt that was ridiculous.
Matei Zaharia [00:06:37]: Yeah.
Swyx [00:06:37]: It felt like we went back to the dark ages
Matei Zaharia [00:06:39]: Yeah
Swyx [00:06:40]: programming. the productivity you gain from all this coding age is amazing, but, yeah.
Matei Zaharia [00:06:45]: Have you heard of cloud?
Swyx [00:06:47]: Yeah.
Swyx [00:06:48]: It was crazy to me.
Matei Zaharia [00:06:49]: Oh, the thing you were working on was the sandboxes or was this before that?
Swyx [00:06:52]: It was a sandbox.
Matei Zaharia [00:06:53]: Okay.
Swyx [00:06:54]: I was work
Matei Zaharia [00:06:54]: So you were in
Swyx [00:06:55]: So I was approaching from a very different angle. I wanted to, “Hey, we’re gonna have cloud sandboxes that doesn’t shut down. You can get one very quickly,” but not just for running agentic sessions.
Matei Zaharia [00:07:06]: Yeah.
Swyx [00:07:06]: It’s also for running development. So I was personally building that week, and through building that, I ran into all these issues, and then I wrote
Matei Zaharia [00:07:15]: Yeah
Swyx [00:07:15]: a document for Matei, it’s like, “Here’s my wish list of what the actual environment should do.” And I think he ended up almost implementing
Matei Zaharia [00:07:22]: Yeah
Swyx [00:07:22]: every single one of them.
Matei Zaharia [00:07:23]: Yeah, I remember Reynolds saying, ‘cause my first prototype of this had just chats with your agent and he said, “I have to be able to open a shell, like my own shell and like list files and like tail them and stuff.” So
Swyx [00:07:36]: So SSH into a mainframe.
Matei Zaharia [00:07:37]: Yeah. it has that now.
Swyx [00:07:39]: Tailing my log.
Matei Zaharia [00:07:40]: Yeah.
Matei Zaharia [00:07:41]: Yeah.
Swyx [00:07:41]: And also another thing I think I asked was, I had. I still use cursor for the sole purpose of rendering markdown files.
Matei Zaharia [00:07:48]: huh. Yes.
Swyx [00:07:49]: So I said, “If you just give me a way to see my markdown files and render
Matei Zaharia [00:07:53]: Yeah
Swyx [00:07:53]: them properly, I don’t need a separate tool anymore.”
Matei Zaharia [00:07:55]: Yeah.
Swyx [00:07:56]: And I think you also built that in.
Matei Zaharia [00:07:57]: Yeah, we, yeah, we did that, yeah. Yeah, we had a lot of engineers building, their own vibe coding setup. But then the other thing they all said is like, “Hey, I built something that’s amazing for me, but, like, no one else on the team can use it ‘cause I don’t have a server to collaborate.” And this is why we tried to set up, Omnigent, so you can have a server and have the security, set up in there. So, like log in with Google or whatever and, like securely share stuff. which. And that’s where we’ve seen a lot of other agents like hit things. Like people think they prototyped an awesome agent, but it’s not allowed to connect to like some really important data or whatever because of the security team.
Omnigent Architecture, Open Source, and Common APIs
Swyx [00:08:38]: Yeah.
Matei Zaharia [00:08:38]: So yeah.
Swyx [00:08:39]: Yeah. At this point, so for those watching along on YouTube, we’re gonna putting up a image of the structure here, and we can talk a little bit of the architecture. I think I just want to have people understand, ‘cause like when we’re talking about software, it can be very abstract and like here is what we’re talking about. You’ve worked out in open source this entire platform and there’s a runner component and server component with a uniform API that you’ve, you’ve figured out. any other element and obviously you can plug in all this, persistence layers and compute layers. This is a whole cloud. It’s an agent cloud.
Matei Zaharia [00:09:12]: Yeah. It’s, it’s got these components to work with it. The, a lot of the action happens like on the machine where you deploy your agent too. So whatever you’ve got on there, you can run. But yeah, it’s, I think it’s the minimal thing you want to have hosted, like collaborative agents and to have that server. And one of the reasons we open sourced it is, anyone building agents, this gives them an app they can start with and customize, which we were seeing in Databricks too. Like someone would make a nice, agent app and then other teams would ask, “Oh, can I just use yours for my agent?”
Swyx [00:09:45]: Yeah, I think we had like five or six different agentic frameworks
Matei Zaharia [00:09:48]: Yeah
Swyx [00:09:48]: built by every different team. They do all do more or less the same thing. Yeah, you need to. people wanna take something that works in Forkit, and you might as well have something open source. Yeah, which also was another question, which is interesting for Databricks. Like what do you choose to open source? What do you choose to make it proprietary? It’s in. this goes back to Spark, right?
Matei Zaharia [00:10:05]: Yeah.
Matei Zaharia [00:10:06]: One, so one of the reasons to open source something is if you think it’s a layer that will there’ll be some network effect, it’ll benefit from many, p
関連記事
エージェントがどのように業務を変革しているか
OpenAI は、自律的な AI エージェントが人間の業務プロセスを根本から変えつつある現状について解説した。
トランプ政権の新たな国勢調査データ規則は政策上の大惨事である
トランプ政権が専門家の意見を聞かずに国勢調査データの公開ルールを変更した。この変更により、再選定や自然災害対応などの信頼できる公的データが減少する恐れがある。
Talos:自動化された反復的ゲノム再解析による希少疾患診断の拡張
Microsoft Research は、希少疾患の診断を支援するオープンソースツール「Talos」を発表した。このツールは科学的知見の進化に応じて保存されたシーケンシングデータを自動的に再分析し、新たな治療可能証拠を持つ変異を検出する。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み