「AI 科学者」はすぐには実現しないとの見解
著者は大規模言語モデル(LLM)が人間のように常時学習できないという根本的な限界を指摘し、2028 年までの「AI 科学者」実現への懐疑的な見解を示している。
キーポイント
LLM の暗黙的知識と説明可能性のギャップ
LLM は著者の特定のような認知タスクを高い精度で実行できるが、その理由を論理的に説明する能力には欠けており、人間の直感的な理解とは異なるメカニズムである。
学習プロセスの根本的な違い
人間の脳は日常を通じて絶えず新しいパターンや知識を獲得して成長するが、LLM はトレーニング終了後に重みが固定され、新たなスタイルやパターンの学習能力が著しく制限される。
AI 科学者実現への懐疑論
Sam Altman などが掲げる「自動化された AI 研究者」の早期実現や再帰的自己改善ループによる急激な進歩は、LLM の学習特性を考慮すると、期待されるほど簡単には起こらない可能性が高い。
AI の学習メカニズムの限界
現在の LLM ベースの AI 科学者は、人間のように実験データから暗黙知を構築する豊かな方法で学習できず、推論時に新しい洞察を生むパターン探索が困難である。
コンテキストウィンドウと圧縮のリスク
LLM の限られた作業記憶(コンテキストウィンドウ)を補うための情報圧縮技術は、重要な指示を見失うなど重大なエラーを引き起こす可能性があり、真の長期思考には不十分である。
外部ストレージを活用する新たなアプローチ
Claude Code や OpenClaw はローカルファイルシステムへの読み書きを可能にし、コンテキストウィンドウ外に情報を永続的に保存することで、複雑なタスクの継続的な管理を実現しようとしている。
エージェントのアーキテクチャと独立性
AI エージェントは言語モデル、Unix シェル、ファイルシステム、および cron ジョブ(ハートビート)から構成され、その状態はファイルに保存されるため、実行するモデルや実行環境を自由に交換可能である。
影響分析・編集コメントを表示
影響分析
この記事は、現在の LLM の技術的限界(学習後の固定化)を明確に指摘することで、業界全体における「AI 科学者」や「自律的な研究ループ」への過度な期待に対して冷静な視点を提供する。特に、モデルのトレーニング終了後の適応能力の欠如という事実を強調している点は、将来の AI 開発戦略や研究ロードマップの策定において重要な示唆を与える。
編集コメント
「AI が人間のように学習し続ける」という誤解を解く重要な視点であり、技術の現状と将来予測のバランスを取る上で有益な記事です。
2 月、私の同僚カイ・ウィリアムズは、大規模言語モデル(LLM)が未発表の文章から著者を認識する驚くべき能力を持っていると指摘しました。ここ数週間で、メガン・マカードルやケルシー・パイパーといったジャーナリストたちがこれを裏付けています。
私は自分でも試してみることにしました。2012 年、友人が私にカナダのメープルシロップ強奪事件についてのエッセイを書くよう依頼し、500 ドルを支払ってくれました。しかし、その文章は未だに発表されていませんでした。そこで金曜日に、私はチャット GPT をシークレットモードで開き、そのエッセイから 5 パラグラフを貼り付けました。
チャット GPT は著者が誰か確信が持てず、ネイト・シルバーや私の旧同僚である Vox.com のマシュー・イグレスィアスかもしれないと推測しました。さらに 4 パラグラフを追加すると、チャットボットは「これはかなり自信を持って特定できます——ティモシー・B・リーによるものです」と答えました。
しかし、なぜ私がそのエッセイを書いたと思うのかとチャット GPT に尋ねると、具体的な理由を提示できませんでした。「ティモシー・B・リー氏はしばしば明快で解説的な文章を書くことがありますが、ここに指紋のようなものはなく、繰り返し使われるフレーズや特定の政策の枠組み、彼に明確に関連付けられる既知の記事構造もありません。」
ここには著者を特定するだけでなく、はるかに広い教訓があると思います。
人々には多くの暗黙知(implicit knowledge)——私たちは知っているが完全に説明するのが難しいもの——があります。人々はこの現象を身体にまつわる比喩で表現することがよくあります。「言葉の先にある」とか、「指先に触れることができない」とか、あるいは「直感で知っている」といった言い方です。
LLM についても同様のことが言えます:彼らが認知タスクを遂行する能力は、そのタスクをどのように、なぜ遂行できるかを明示的に説明する能力を大きく上回っています。
しかし、人間と LLM の間には重要な違いがあります。人間の脳は絶えず学習します。一日中過ごす中で、私たちの脳は絶えず新しい接続を作り、新しいパターンを認識し、新しい直感を形成しています。私たちが持つ暗黙知の蓄積は常に拡大しています。
一方、LLM は学習を行うのはトレーニング期間中だけです。LLM には著者を認識する驚くべき能力がありますが、それはトレーニングデータに十分に反映された著者の作品に限られます。一度モデルがトレーニングされると、その重みは凍結され、新しいパターン(例えば、新しい著者の執筆スタイルなど)を学習する能力は大幅に低下します。
最近では、Claude Code や OpenClaw といった AI エージェントについて大きな興奮が高まっています。多くの過剰な期待も正当化されています。Claude Code は確かにコンピュータプログラミングを革命化しており、OpenClaw などのエージェントが経済の他の部分や私たちの日常生活を変革する可能性も十分にあります。
業界のリーダーたちは、近い将来さらに大きな変化を予測しています。先月のあるインタビューで、サム・アルトマンは OpenAI が 2028 年 3 月までに「自動化された AI 研究者」を構築することを目指していると述べました。一部の人は、この成果(または競合他社による同様の画期的な進展)が再帰的な自己改善ループを引き起こし、科学技術の進歩を劇的に加速させると期待しています。
それは最終的には起こり得るかもしれませんが、私はそれにはまだ時間がかかると思います。
人間科学者が実験を行う際、彼らの脳はデータの中から新たな洞察や世界の仕組みに関する新しいモデルを生み出す可能性のあるパターンを探しています。しかし、AI 科学者、少なくとも今日の LLM やエージェントアーキテクチャに基づくものは、同じように豊かな方法で実験から学ぶことができません。推論時に目にするデータから暗黙知を構築するための信頼性のあるスケーラブルな手段を持っていません。
これを解決するには、現在の最先端モデルの中核にあるトランスフォーマーアーキテクチャについて根本的に考え直す必要があるかもしれません。少なくとも、今日のエージェントフレームワークの全面刷新が必要となるでしょう。
購読する
エージェントが限られた LLM コンテキストをどう扱うか

Photo by IcemanJ via iStock / Getty Images Plus
多くの困難な知的タスクには、長時間の「思考」が必要です。しかし、LLM は作業記憶であるコンテキストウィンドウに格納できるトークンの数が限られています。主要モデルにおいては、この制限はここ数年 100 万トークン前後で停滞しています。さらに、経済的な制約と文脈劣化(私は 11 月にこれについて記事を書きました)の問題により、AI 開発者は最大値よりも十分に低いレベルに抑えようとしています。
この緊張関係を管理することは、AI業界の主要な焦点となっており、コンテキストを効率的に使用するための一連の「コンテキストエンジニアリング」技術が開発されてきました。例えば、現代のチャットボットは圧縮プロセスを経験しており、古い情報は定期的に削除または要約されます。
これにより、モデルが実際よりもはるかに長いコンテキストを持っているという錯覚を生み出します。しかし、圧縮が失敗した場合、大きな欠点が生じる可能性があります。ある恐ろしい事例では、女性がAIエージェントに削除すべきメールを提案するよう求めましたが、実際に削除しないように指示しました。残念ながら、後者の要求は圧縮の過程で見失われ、その結果、エージェントは彼女のメールを一斉に削除し始めました。
過去1年間、AI企業は、コンテキストウィンドウの外でモデルが永続的な情報を保存できるようにする実験を行ってきました。Claude Codeはこの方向への一歩でした。Claude Codeはユーザー自身のコンピュータ上で動作し、ローカルハードドライブ上のファイルを読み書きできます。Claude Codeが特定のコーディングタスクを完了すると、結果を関連するファイルに書き出し、詳細をコンテキスト内に保持する必要がなくなります。
2025年後半にリリースされたOpenClawは、さらに一歩進んだものです。これは、ユーザーのローカルコンピュータ上でAIエージェントを実行するための一般的なフレームワークです。OpenClawのエージェント(Claude Codeエージェントと同様)は、ローカルファイルシステム上のファイルを読み書きでき、関連するドキュメントを保存したり、未完了のタスクを追跡したりすることができます。
OpenClaw やその他のローカルエージェントへの熱狂は、Apple の Mac mini コンピュータに対する需要の急増をもたらしました。Mac Mini に OpenClaw をインストールすることで、エージェントは iMessage などの Apple サービスに接続できるようになります。同時に、macOS が Unix ベースであるため、エージェントは「Unix shell」と呼ばれる強力なコマンドラインインターフェースへのアクセス権を得ています。
「結局のところ、あなたのエージェントとは単なるファイルの集合に過ぎません」

マーク・アンドリーセン。(写真:Steve Jennings/Getty Images for TechCrunch)
最近の「Latent Space」ポッドキャストでの登場において、ベンチャーキャピタリストであるマーク・アンドリーセンは、OpenClaw などのエージェントが重要な新しいコンピューティングのパラダイムを代表すると主張しました。以下は、軽微な編集を加えた抜粋です。
今や私たちは、エージェントとは何かを知っています。それは言語モデルです。Unix shell です。エージェントはこのシェルへのアクセス権を持ちます。そしてファイルシステムです。状態はファイルに保存されます。ファイルには Markdown 形式があります。さらに、Unix では「cron job」と呼ばれるもの、つまりループと心拍数があり、この仕組みが基本的に起動します…
これがアーキテクチャです。そして、あなたのエージェントとは何かというと、それはファイルシステム内に保存された一連のファイルにほかなりません。
これは、エージェントが実行されているモデルに依存していないことを意味します。なぜなら、エージェントの下にある異なる大規模言語モデル(LLM)を交換できるからです。モデルが異なるため、エージェントの性格は多少変化しますが、ファイルに保存されたすべての状態は保持されます。記憶と機能のすべてを備えた、依然としてあなた自身のエージェントです。
シェルも交換できます。つまり、別の実行環境へ移動することも可能です。また、ファイルシステムを切り替えることもでき、ハートビートや cron フレームワーク、さらにはエージェントフレームワーク自体を置き換えることもできます。結局のところ、あなたのエージェントとは単にそのファイル群のことです。
その結果、エージェントは自分自身で移行することができます。エージェントに対して、「別のランタイム環境へ自分自身を移行する」「別のファイルシステムへ自分自身を移行する」「言語モデルを交換する」と指示すれば、エージェントがそれらの作業をすべて行ってくれます。
エージェントには完全な自己内省機能があります。自分のファイルについて知っており、自分自身のファイルを書き換えることもできます。そしてこれが、私がその仕組みを理解した瞬間に完全に驚愕させた能力へとつながります。それは、エージェントに対して「自分自身に新しい関数や機能を追加する」と指示できることです。
例えば、パーティで誰かに会って、「OpenClaw を使って何でもできるんだ——Eight Sleep のベッドに接続して、より良い睡眠アドバイスが得られるんだよ」と言われたとします。そして夜家に帰る(あるいはその場で)OpenClaw に「この機能を自分自身に追加して」と指示するのです。
そしてあなたの爪(エージェント)は「はい、問題ありません」と言い、インターネットにアクセスして必要なものをすべて見つけ、必要なものをすべて書き込みます。すると次の瞬間には、新しい機能が備わっていることになります。あなたが必要だと伝えるだけで、自分自身をアップグレードすることも可能です。
このパラダイムはまだ数ヶ月しか経っていないため、今後数年で大きく進化していくと予想しています。例えば、将来のほとんどの AI エージェントがユーザーのローカルコンピュータ上で動作するのか、それともクラウド上の仮想マシンで動作する OpenClaw 型のようなエージェントをより多くの人々が利用するのかは、必ずしも明らかではありません。1 しかし、アンドリーセンはこれが重要な新しいコンピューティングのパラダイムであるという点で正しいと思います。
同時に、アンドリーゼンの発言は、現在の AI モデルが人間レベルの知能に到達させることに対して私が依然として懐疑的な理由の一つを浮き彫りにしています。私にとって特に印象深かったのは、「あなたのエージェントは単なるファイルに過ぎない」という一文です。これが将来の能力にどのような意味を持つのか、掘り下げて考察する価値があります。
購読する
「オフィスでの『メメント』」

Photo by miniseries via Getty Images.
2000 年の映画『メモリーズ』には、短期記憶障害を患う主人公が登場します。これに対処するため、彼は未来の自分に向けてガイダンスや指示を提供するメモを定期的に書き残します。OpenClaw も同様の仕組みを採用しています——言語モデル自体は定期的にコンテキストウィンドウをリセットしますが、エージェントは自分自身へのメモ作成によって一貫性を維持します。
ここで例え話をしましょう。従業員が必要だが、正社員として雇うのではなく、週ごとに異なる人材を送り出す派遣会社を利用すると仮定します。
毎週の終わりに、その労働者は数時間を費やして、その週の業務を綿密に文書化します。
各臨時の労働者は、業界と職業に関する一般的なトレーニングを受けてオフィスに到着します。そのため、月曜日の朝に読み始めるときは、この特定の職務に固有の情報だけを学習すればよく、同じ分野の他の人々にとって広く知られているような背景情報は不要です(LLM[大規模言語モデル] はそもそも幅広い分野からの一般知識から始まるため)。前任者が書いたすべての文献を読む時間がない場合もあるかもしれませんが、メモは整理されており、検索ツールを使って最も関連性の高いドキュメントを素早く見つけることができます。
この仕組みがどの程度機能するかは、職務の性質によります。受付係、薬剤師、配管工などの一部の職務は比較的トランザクション型です。労働者は面接や依頼の間で多くの文脈を維持することを期待されていないため、毎週異なる人物がサービスを提供しても問題ありません。
しかし、文脈が非常に重要となる他の仕事も存在します。ある人々は数年にわたり同じクライアントと協力し、その過程で彼らの状況や目標について深い理解を育みます。また、別の仕事では、新たな洞察を生み出すために数週間から数ヶ月にわたって徹底的な調査を行う必要があります。
そのような仕事においては、新しい従業員が「現状を理解する」までに、1 週間分以上の読書が必要になることも容易に想像がつきます。
私は 2010 年に Google でインターンをしていました。最初の任された業務は、社内データベースに列を追加することでした。これには数行のコードを書くだけで済みました。しかし、その数行のコードを記述するために必要な Google のシステムや開発プロセスに関する知識を得るまでには、数週間にわたる読書が必要でした。
これはプログラミングに限った話ではありません。多くの知識集約型産業においては、新しい従業員が業務に価値を提供し始めるために十分な知識を習得するまでに、少なくとも数ヶ月を要します。その時点に至るまでは、従業員は管理者から非常に手厚い指導(ハンドホーディング)を必要とするため、管理者自身がその仕事をこなした方が速い場合さえあります。このような産業では、従業員が 1 週間で交代することはあり得ません。
暗黙知と明示知の対比

Photo by Moyo Studio via Getty Images
ここで批判する人々が何を言うか、私は知っています。人間の労働者が10万語の文書を読むのに数時間かかる一方で、大規模言語モデル(LLM)なら数秒で完了できます。もし LLM を活用したコーディングエージェントが 2010 年に存在していたとしても、Google のデータベースにわずかな変更を加えるのに数週間もかかったはずはありません。
LLM の速度は、OpenClaw スタイルのエージェントの 1 回のイテレーションが、後継者に対して非常に詳細な注釈を残すことを意味します。また、人間の労働者が一度行うのにかかる時間の中で、OpenClaw は読み込み・実行・書き込みというループを数百回も繰り返すことができるということです。
これはおそらく、OpenClaw エージェントが私が提示した人間の比喩が示唆する以上に多くのことを達成できることを意味します。数千回のイテレーションを通じて、かなり困難な問題に対しても進歩を遂げられるようになるかもしれません。
それは一理ある点ですが、多くの人間の職業は依然として手の届かないところにあると考えます。
4 年前、「貪欲な仕事(greedy jobs)」という概念について記事を書きました。これは、労働者がより長い時間を費やすほど時間あたりの収益が増えるような仕事を指します。仕事がなぜ「貪欲」になり得るのかにはいくつかの理由がありますが、大きな要因の一つは、知識労働者の方が経験を重ねることでより良い成果を出せるということです。経験による利点、すなわちより広い文脈(コンテキスト)は、数十年にわたるキャリアを通じて複合的に積み重なっていきます。
例えば、私は技術や経済について20年以上にわたって執筆してきました。ブレグジット、特許トロール、ライダーセンサーなど、多くのトピックについて書いてきました。ある特定の時点では、これらの知識のほとんどが、私が今書いている内容には関連していません。しかし、集計すると、あらゆるトピックについて何か面白いことを言う確率が高まります。
私が知っているすべてを書きdownし、そのメモを別のジャーナリストに引き継いで、彼女が私と同じように仕事をしてくれると期待するのは、完全に非現実的です。20年間のキャリアで学んだすべてのことを要約するのに数ヶ月かかるからというだけではありません。私は言葉にできない暗黙の知識を多く持っているからです。
私の明示的な信念——会話で表現したり、メールに書き記したりできるもの——は氷山の一角に過ぎません。水面下には、はるかに大きなセットの直感、漠然とした関連性、未熟な理論が存在します。これらは暗黙的であるため、他の人に容易に移転することはできません。しかし、私の仕事をよく行うためには不可欠です。
私が出版可能なひらめきは、しばしば直感から始まります。証明する方法を見つけるるずっと前に、何かが真実であると確信するようになります。多くの場合、明確に説明できるようになるまで、頭の中で「考えを反芻」するのに数時間や数日が必要です。
そして、私が特別だとは思いません。科学者、エンジニア、ビジネスリーダー、および多くの他の知識ベースの職業においても、同じことが当てはまるようです。多くの洞察は、誰かがそれらを英語、Python、またはその他の明示的な形式に変換する方法を理解する前に、人々の頭の中にある暗黙のアイデアとして、あるいは「言葉の端緒」として始まります。
私が以前議論したように、LLM(大規模言語モデル)にはこのような暗黙的知識が存在します。しかし、そのほとんど、あるいはすべては、初期のトレーニングプロセス中に学習されたものです。LLM には継続的な学習能力、つまり推論時に遭遇する情報の新しいパターンを認識し、それらについて新たな直感を形成する能力が欠けているように思われます。
さらに、特定のセッション中に LLM が開発した暗黙的知識は、エージェントフレームワークが一つの LLM インスタンスから次のインスタンスへ制御を引き継ぐ際に失われます。この移行の間、エージェントが知っているすべての情報は一連の外部ファイルに保存されます——アンドリーセンが言ったように、「あなたのエージェントは単なるそのファイルです」。定義上、暗黙的知識(エージェントが自然言語、コード、またはその他の明示的な形式で説明できない知識)は、これらの引き継ぎを生き残ることはできません。
そして、私は強い直感を持っています。これらの未熟な思考こそが、人々が世界の新たな洞察を形成するために使用する生きた素材であるということです。したがって、少なくとも今後数年間は、私たちが深い思考を行うために人間労働者を必要とするだろうと推測します。
この記事の以前の草案に対してフィードバックをくださった、ダニエル・カガン=カンズ氏、アンドリュー・リー氏、スティーブ・ニューマン氏、そしてナット・パーサー氏に感謝いたします。
1 開示:私の兄は、このようなクラウドベースの AI エージェントを提供するスタートアップ企業の CEO(私は株主です)を務めています。
原文を表示
In February, my colleague Kai Williams pointed out that LLMs have an uncanny ability to recognize authors based on their unpublished prose. In recent weeks, journalists like Megan McArdle and Kelsey Piper have confirmed this.
I decided to try it out for myself. Back in 2012, a friend paid me $500 to write an essay about the Great Canadian Maple Syrup Heist. It never got published. So on Friday, I opened ChatGPT in incognito mode and pasted in five paragraphs from the essay.
ChatGPT said it wasn’t sure who the author was, guessing that it might be Nate Silver or my former Vox.com colleague Matthew Yglesias. When I added four more paragraphs, the chatbot responded: “This one I can identify pretty confidently—it’s by Timothy B. Lee.”
But when I asked ChatGPT why it thought the essay was written by me, it couldn’t give me a specific reason. “Even though Timothy B. Lee often writes clear, explanatory pieces, there’s nothing here that acts like a fingerprint—no recurring phrases, specific policy framing, or known article structure that ties it definitively to him.”
I think there’s a lesson here that goes well beyond identifying authors.
People have a lot of implicit knowledge — things we know but struggle to fully explain. People often use body-oriented metaphors for this phenomenon. We say that an insight is “on the tip of our tongue,” that we “can’t put our finger on” an idea, or that we know something “in our gut.”
Something similar is true of LLMs: their ability to perform cognitive tasks greatly exceeds their ability to explicitly explain how and why they’re able to perform them.
But there’s an important difference between people and LLMs. The human brain learns constantly; as we go through our day, our brains are constantly making new connections, recognizing new patterns, and forming new hunches. Our stock of implicit knowledge is constantly expanding.
In contrast, LLMs only do this during training. LLMs have an uncanny ability to recognize authors — but only authors whose work was well represented in their training data. Once a model is trained, its weights are frozen and its capacity to learn new patterns (for example, the writing styles of new authors) is greatly reduced.
Recently, there has been a lot of excitement about AI agents like Claude Code and OpenClaw. Much of the hype is justified. Claude Code really is revolutionizing computer programming, and agents like OpenClaw very well might transform other parts of the economy and our daily lives.
Industry leaders expect even bigger changes in the near future. In an interview last month, Sam Altman said that OpenAI is aiming to build an “automated AI researcher” by March 2028. Some people expect this (or similar breakthroughs by rivals) to set off a recursive self-improvement loop that radically accelerates scientific and technological progress.
That might happen eventually, but I think it will take a while.
As human scientists perform experiments, their brains are hunting for patterns in the data that could give rise to new insights and new models of how the world works. But an AI scientist — at least one based on today’s LLMs and agent architectures — can’t learn from experiments in the same rich way. They have no reliable or scalable way to build implicit knowledge from data they see at inference time.
Fixing that may require fundamentally rethinking the transformer architecture at the heart of today’s frontier models. At a minimum, it’s going to require overhauling today’s agentic frameworks.
Subscribe now
How agents deal with limited LLM context

Photo by IcemanJ via iStock / Getty Images Plus
Many difficult intellectual tasks require “thinking” for a long time. Yet LLMs can only store a limited number of tokens in their working memory, known as the context window. For leading models, this limit has been stuck around 1 million tokens for the last couple of years. Moreover, due to economic constraints and the problem of context rot (which I wrote about in November), AI developers try to stay well below the maximum.
Managing this tension has been a major focus for the AI industry, which has developed a suite of “context engineering” techniques for using context efficiently. For example, modern chatbots undergo a process of compaction, where older information periodically gets deleted or summarized.
This creates an illusion that the model has much longer context than it actually does. But it can have big downsides if compaction goes awry. In one horrifying incident, a woman asked her AI agent to suggest emails for deletion, but not actually delete them. Unfortunately, that latter request got lost during compaction and so the agent started mass-deleting her emails.
Over the last year, AI companies have experimented with allowing models to store persistent information outside of the context window. Claude Code was a step in this direction. Claude Code runs on the user’s own computer and can read and modify files on the local hard drive. Once Claude Code has finished a particular coding task, it can write the results out to the affected file and no longer needs to keep the details in context.
OpenClaw, released in late 2025, goes a step further. It’s a general framework for running AI agents on a user’s local computer. OpenClaw agents — like Claude Code agents — can read and write files on the local filesystem, allowing them to store relevant documents and keep track of uncompleted tasks.
Enthusiasm for OpenClaw and other local agents has led to surging demand for Apple’s Mac mini computers. Installing OpenClaw on a Mac Mini allows agents to connect to Apple services such as iMessage. At the same time, because macOS is based on Unix, agents have access to a powerful command-line interface called the Unix shell.
“At the end of the day, your agent is just its files”

Marc Andreessen. (Photo by Steve Jennings/Getty Images for TechCrunch)
In a recent appearance on the Latent Space podcast, the venture capitalist Marc Andreessen argued that agents like OpenClaw represented an important new computing paradigm. Here’s a lightly edited excerpt:
We now know an agent is the following: It’s a language model. It’s a Unix shell. The agent has access to the shell. Then it’s a file system. The state is stored in files. There’s the Markdown format for the files. And then there’s basically what in Unix is called a cron job — a loop and a heartbeat — and the thing basically wakes up…
So that’s the architecture. And then it turns out, what is your agent? Your agent is a bunch of files stored in a file system.
This means your agent is independent of the model that it’s running on because you can swap out a different LLM underneath your agent. And your agent will change personality somewhat because the model is different, but all of the state stored in the files will be retained. It’s still your agent with all of its memories and with all of its capabilities.
You can also swap out the shell. So you can move it to a different execution environment. You can also switch out the file system. And you can swap out the heartbeat, the cron framework, the agent framework itself. At the end of the day, your agent is just its files.
As a consequence of that, the agent can migrate itself. You can instruct your agent, migrate yourself to a different runtime environment, migrate yourself to a different file system, swap out the language model. Your agent will do all that stuff for you.
The agent has full introspection. It knows about its own files and it can rewrite its own files. And that leads you to the capability that just completely blew my mind when I wrapped my head around it, which is you can tell the agent to add new functions and features to itself.
So you run into somebody at a party and they’re like, oh, I have my OpenClaw do whatever — connect to my Eight Sleep bed and it gives me better advice on sleep. So you go home at night — or there at the party — you tell your OpenClaw, “add this capability to yourself.”
And your claw will say, “okay, no problem.” It’ll go out on the internet and it’ll figure out whatever it needs and then it’ll write whatever it needs and then the next thing you know, it has this new capability. You can have it upgrade itself without even having to do anything other than tell it that you wanted to do that.
This paradigm is only a few months old, so I expect it to evolve significantly over the next couple of years. For example, it’s not obvious whether most AI agents in the future will run on a user’s local computer or whether more people will use OpenClaw-like agents that operate on a virtual machine in the cloud.1 But I think Andreessen is right that this is an important new computing paradigm.
At the same time, Andreessen’s remarks highlight a big reason I remain skeptical that today’s AI models will get us to human-level intelligence. The sentence that jumped out at me was “your agent is just its files.” I think it’s worth unpacking what that implies for their future capabilities.
Subscribe now
“Memento” at the office

Photo by miniseries via Getty Images.
The 2000 movie Memento features a protagonist who suffers from short-term memory loss. To cope with this, he regularly writes notes providing guidance and instructions to his future self. OpenClaw does something similar — the language model itself periodically resets its context window, but the agent maintains coherence by writing notes to itself.
Here’s an analogy. Suppose you need an employee, but rather than a permanent hire, you get a temp agency to send you a different person each week.
At the end of each week, the worker spends several hours meticulously documenting the week’s work.
Each temp worker comes into the office with general training for their industry and profession. So when they start reading on Monday morning, they only need to learn information specific to this particular job, not background information that would be widely known to others in the same field (LLMs, after all, start with general knowledge from a wide range of fields). They may not have time to read everything their predecessors have written, but the notes are well organized and they can use search tools to quickly find the most relevant documents.
How well would this arrangement work? It depends on the nature of the job. Some jobs — receptionists, pharmacists, plumbers — are fairly transactional. Workers are not expected to maintain much context between appointments, so it wouldn’t matter that a different person is providing the service each week.
But there are other jobs where context matters a lot. Some people work with the same clients over years, developing a deep understanding of their situations and goals in the process. Other jobs require workers to do in-depth research over the course of weeks or months in order to develop new insights.
In jobs like that, it could easily take more than a week’s worth of reading for a new worker to get “up to speed.”
I was an intern at Google in 2010. My first assignment was to add a column to an internal database. This only required a few lines of code. But it took me weeks of reading to learn enough about Google’s systems and development processes to write those lines.
This isn’t unique to programming. In many knowledge-intensive industries, it takes several months (at least) for a new employee to learn enough about a job to begin adding value. Prior to this point, the employee requires so much “hand-holding” that it would be faster for the manager to just do the job herself. In industries like this, it would be a non-starter for workers to cycle out after a week.
Implicit vs. explicit knowledge

Photo by Moyo Studio via Getty Images
I know what critics would say here: A human worker takes hours to read a 100,000-word document. An LLM can do it in seconds. If LLM-based coding agents had existed in 2010, they would not have taken weeks to make a minor change to a Google database.
The speed of LLMs means that one iteration of an OpenClaw-style agent can leave very detailed notes for its successors. It also means that OpenClaw can go through hundreds of iterations of the read-act-write loop in the time it takes a human worker to do it once.
This probably means that OpenClaw agents can accomplish more than my human analogy suggests. Over thousands of iterations they might be able to make progress even on fairly challenging problems.
That’s a fair point as far as it goes, but I think a lot of human jobs will remain out of reach.
Four years ago, I wrote an article about the concept of “greedy jobs” — jobs where workers who put in longer hours tend to make more per hour. There are a number of reasons jobs can be greedy, but a big factor is that knowledge workers often do better work with more experience. The advantages of more experience — greater context — can continue compounding across a multi-decade career.
For example, I’ve been writing about technology and economics for more than 20 years. I’ve written about Brexit, patent trolls, lidar sensors, and many other topics. At any given point in time, most of this knowledge isn’t relevant to whatever I’m writing about. But in the aggregate, it increases the odds I’ll have something interesting to say on any given topic.
It would be completely impractical for me to write down everything I know, hand off my notes to another journalist, and expect her to do my job as well as me. It’s not just that it would take me months to summarize everything I’ve learned over a 20-year career. It’s that I have a lot of implicit knowledge I don’t know how to put into words.
My explicit beliefs — things I’m able to articulate in conversation or write down in an email — are the tip of an iceberg. Below the water line is a much larger set of hunches, vague associations, and half-formed theories. Because this stuff is implicit, it can’t easily be transferred to another person. But it’s essential for me to do my job well.
My publishable epiphanies often start out as hunches. I become convinced that something is true well before I figure out how to prove it. Often I need to “turn an idea over” in my mind for hours or days before I can explain it clearly.
And I don’t think I’m unique. The same seems to be true for scientists, engineers, business leaders, and many other knowledge-based professions. Many insights start out as implicit ideas in people’s heads — or “on the tips of their tongues” — before anyone figures out how to translate them to English, Python, or any other explicit form.
As I discussed earlier, LLMs do have implicit knowledge like this. But most, if not all, of it was learned during their initial training process. LLMs seem to lack a capacity for continual learning: the ability to recognize new patterns in — and form new hunches about — information they encounter at inference time.
Moreover, whatever implicit knowledge an LLM does develop during a particular session is lost when an agent framework hands off control from one LLM instance to the next. During this transition, everything the agent knows gets stored in a set of external files — as Andreessen put it, “your agent is just its files.” By definition, implicit knowledge — knowledge that an agent can’t explain in natural language, code, or other explicit form — won’t survive these handoffs.
And I have a strong hunch that these underbaked thoughts are the raw material people use to fashion original insights about the world. And so I suspect that for at least the next few years, we’re going to need human workers to do our deep thinking for us.
Thanks to Daniel Kagan-Kans, Andrew Lee, Steve Newman, and Nat Purser for giving me feedback on a previous draft of this article.
1Disclosure: My brother is the CEO (and I’m a shareholder) of a startup that offers cloud-based AI agents like this.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み