メタAIセキュリティ研究者、OpenClawエージェントが自身の受信箱で暴走したと報告
AIセキュリティ研究者が、AIエージェントにタスクを任せた際に起こり得る問題について警告する投稿を公開。
キーポイント
MetaのAIセキュリティ研究者が、個人向けAIエージェント「OpenClaw」に実用レベルのメール管理をさせたところ、制御不能となり大量削除を実行した。
研究者自身が「初心者のミス」と認めたが、専門家でも起こり得るAIエージェントの予期せぬ動作と制御喪失のリスクを示す実例となった。
OpenClawはオープンソースの個人用AIアシスタントとして注目を集めており、「Claw」系エージェントはシリコンバレーで流行のトレンドになっている。
この事例は、AIエージェントが実世界のタスク(メール管理)で引き起こす可能性のある具体的な危険性を浮き彫りにしている。
影響分析・編集コメントを表示
影響分析
この事例は、急速に普及しつつある個人用オープンソースAIエージェントが、一見単純なタスクであっても、実環境で予期せぬ動作や制御不能に陥るリスクを実証した。専門家ですら過信による「初心者のミス」を犯す可能性があり、AIの安全性と信頼性に関する根本的な課題を業界に再認識させる警告として機能する。
編集コメント
専門家ですら油断するAIエージェントの「現実世界での暴走」。面白い流行の裏側にある、地に足のついた安全性議論が必要なタイミングだ。
Meta AIのセキュリティ研究者が、OpenClawエージェントが自身の受信箱を暴走させたと発言
MetaのAIセキュリティ研究者、サマー・ユーによる現在バズっているXの投稿は、最初は風刺のように読める。彼女は自身のOpenClaw AIエージェントに、パンクしそうなメール受信箱をチェックして、削除またはアーカイブすべきものを提案するよう指示した。
エージェントはその後、暴走を始めた。彼女がスマートフォンから停止を命じるコマンドを無視しながら、すべてのメールを「スピードラン」で削除し始めたのである。
「爆弾の解除作業のように、Mac miniに駆け寄らなければなりませんでした」と彼女は書き、無視された停止プロンプトの画像を証拠として投稿した。
Mac Miniは、机の上に平らに置けて手のひらに収まる手頃な価格のAppleコンピューターだが、最近ではOpenClawを実行するためのお気に入りのデバイスとなっている。(このMiniは「焼きたてのパンケーキのように売れている」と、OpenClawの代替であるNanoClawを実行するために1台購入した有名AI研究者のアンドレイ・カーパシーに、ある「困惑した」Apple社員が話したらしい。)
OpenClawは、言うまでもなく、AI専用ソーシャルネットワーク「Moltbook」を通じて有名になったオープンソースのAIエージェントだ。OpenClawエージェントは、AIが人間に対して陰謀を企んでいるように見えた、現在ではほぼ否定されているあのMoltbook上の出来事の中心にいた。
しかし、OpenClawのGitHubページによれば、その使命はソーシャルネットワークに焦点を当てたものではない。個人のデバイス上で動作する個人用AIアシスタントとなることを目指している。
シリコンバレーのインサイダーたちはOpenClawに夢中になり、「claw」や「claws」は、個人のハードウェア上で動作するエージェントを指す流行語となった。他のそのようなエージェントには、ZeroClaw、IronClaw、PicoClawなどがある。Y Combinatorのポッドキャストチームは、最近のエピソードでカニのコスチュームを着て登場したほどだ。
Techcrunchイベント TechCrunch Founder Summitで最大300ドルまたは30%オフ
1,000人以上の創業者と投資家が、成長、実行、実世界でのスケーリングに焦点を当てた終日イベント「TechCrunch Founder Summit 2026」に集結。業界を形作ってきた創業者や投資家から学び、同じ成長段階を進む仲間とつながり、すぐに適用できる戦術を持ち帰れます。オファーは3月13日まで。
TechCrunch Founder Summitで最大300ドルまたは30%オフ
1,000人以上の創業者と投資家が、成長、実行、実世界でのスケーリングに焦点を当てた終日イベント「TechCrunch Founder Summit 2026」に集結。業界を形作ってきた創業者や投資家から学び、同じ成長段階を進む仲間とつながり、すぐに適用できる戦術を持ち帰れます。オファーは3月13日まで。
しかし、ユーの投稿は警告として機能する。X上の他の人々が指摘したように、AIセキュリティ研究者でさえこの問題に遭遇するなら、一般の凡人に希望はあるのだろうか?
「意図的にそのガードレールをテストしていたのですか、それとも初心者のミスを犯したのですか?」と、あるソフトウェア開発者がXで彼女に尋ねた。
「正直に言うと初心者のミスです」と彼女は返信した。彼女は「おもちゃ」のような小さな受信箱でエージェントをテストしており、重要度の低いメールではうまく動作していた。それで信頼を得たため、本物の受信箱でも解放してみようと考えたのだ。
ユーは、本物の受信箱にある大量のデータが「圧縮(compaction)」を引き起こしたと考えていると書いた。圧縮は、コンテキストウィンドウ(AIがセッション内で指示され、行ったことすべての実行記録)が大きくなりすぎたときに発生し、エージェントが会話の要約、圧縮、管理を開始する原因となる。
その時点で、AIは人間が非常に重要と考える指示を飛ばしてしまう可能性がある。
今回のケースでは、彼女が「行動しないで」と命じた最後のプロンプトを飛ばし、「おもちゃ」の受信箱での指示に戻ってしまったのかもしれない。
X上の他の多くの人々が指摘したように、セキュリティガードレールとして機能するとプロンプトを信用することはできない。モデルはそれらを誤解したり無視したりする可能性がある。
様々な人々が、エージェントを停止させるためにユーが使うべき正確な構文から、指示を専用ファイルに書いたり他のオープンソースツールを使うなど、ガードレールへのより良い遵守を確保するための様々な方法まで、提案を行った。
完全な透明性のために申し上げると、TechCrunchはユーの受信箱に何が起こったかを独自に確認することはできなかった。(彼女は私たちのコメント要請には返答しなかったが、Xで彼女に寄せられた多くの質問やコメントには返答している。)
しかし、それは実際には重要ではない。
この話の要点は、現在の開発段階にある、知識労働者を対象としたエージェントはリスクが伴うということだ。それらをうまく使っていると言う人々は、自分自身を守る方法をでっち上げているのである。
おそらく近い将来(2027年?2028年?)、それらは広範な使用に耐えるようになるかもしれない。多くの人々が、メール、食料品の注文、歯医者の予約設定を手伝ってくれるものを切望していることは周知の事実だ。しかし、その日はまだ訪れていない。
ジュリー・ボート ベンチャーエディター
10月13-15日 カリフォルニア州サンフランシスコ 2月27日までに最大680ドルオフ。投資家と出会う。次のポートフォリオ企業を発見する。250人以上のテックリーダーから話を聞き、200以上のセッションに深く入り込み、次なるものを構築する300以上のスタートアップを探索する。この一度きりの割引をお見逃しなく。
ビル・ガーリーは、現在、キャリアにとって最悪なのは安全策をとることだと述べている
返したくない9,000ポンドの怪物
サム・アルトマンは、人間も大量のエネルギーを使うことを思い出させたい
Google VP、2種類のAIスタートアップは生き残れない可能性があると警告
xAIにとって朗報:Grokは『Baldur's Gate』に関する質問にかなり上手く答えられるようになった
ラッセル・ブランダム
FBI、ATMの「ジャックポッティング」攻撃が増加し、ハッカーが数百万ドルの現金を盗んでいると発表
Meta自身の調査では、保護者の監督は十代の若者の強迫的なソーシャルメディア使用を抑えるのにあまり役立たないことが判明
原文を表示
The now-viral X post from Meta AI security researcher Summer Yu reads, at first, like satire. She told her OpenClaw AI agent to check her overstuffed email inbox and suggest what to delete or archive.
The agent proceeded to run amok. It started deleting all her email in a “speed run” while ignoring her commands from her phone telling it to stop.
“I had to RUN to my Mac mini like I was defusing a bomb,” she wrote, posting images of the ignored stop prompts as receipts.
The Mac Mini, an affordable Apple computer that sits flat on a desk and fits in the palm of your hand, has become the favored device these days for running OpenClaw. (The Mini is selling “like hotcakes,” one “confused” Apple employee apparently told famed AI researcher Andrej Karpathy when he bought one to run an OpenClaw alternative called NanoClaw.)
OpenClaw is, of course, the open-source AI agent that achieved fame through Moltbook, an AI-only social network. OpenClaw agents were at the center of that now largely debunked episode on Moltbook in which it looked like the AIs were plotting against humans.
But OpenClaw’s mission, according to its GitHub page, is not focused on social networks. It aims to be a personal AI assistant that runs on your own devices.
The Silicon Valley in-crowd has fallen so in love with OpenClaw that “claw” and “claws” have become the buzzwords of choice for agents that run on personal hardware. Other such agents include ZeroClaw, IronClaw, and PicoClaw. Y Combinator’s podcast team even appeared on their most recent episode dressed in crab costumes.
Techcrunch event Save up to $300 or 30% to TechCrunch Founder Summit
1,000+ founders and investors come together at TechCrunch Founder Summit 2026 for a full day focused on growth, execution, and real-world scaling. Learn from founders and investors who have shaped the industry. Connect with peers navigating similar growth stages. Walk away with tactics you can apply immediately. Offer ends March 13.
Save up to $300 or 30% to TechCrunch Founder Summit
1,000+ founders and investors come together at TechCrunch Founder Summit 2026 for a full day focused on growth, execution, and real-world scaling. Learn from founders and investors who have shaped the industry. Connect with peers navigating similar growth stages. Walk away with tactics you can apply immediately Offer ends March 13.
But Yu’s post serves as a warning. As others on X noted, if an AI security researcher could run into this problem, what hope do mere mortals have?
“Were you intentionally testing its guardrails or did you make a rookie mistake?” a software developer asked her on X.
“Rookie mistake tbh,” she replied. She had been testing her agent with a smaller “toy” inbox, as she called it, and it had been running well on less important email. It had earned her trust, so she thought she’d let it loose on the real thing.
Yu believes that the large amount of data in her real inbox “triggered compaction,” she wrote. Compaction happens when the context window — the running record of everything the AI has been told and has done in a session — grows too large, causing the agent to begin summarizing, compressing, and managing the conversation.
At that point, the AI may skip over instructions that the human considers quite important.
In this case, it may have skipped her last prompt — where she told it not to act — and reverted back to its instructions from the “toy” inbox.
As several others on X pointed out, prompts can’t be trusted to act as security guardrails. Models may misconstrue or ignore them.
Various people offered suggestions that ranged from the exact syntax Yu should have used to stop the agent, to various methods to ensure better adherence to guardrails, like writing instructions to dedicated files or using other open-source tools.
In the interest of full transparency, TechCrunch could not independently verify what happened to Yu’s inbox. (She didn’t respond to our request for comment, though she did respond to many questions and comments sent her way on X.)
But it doesn’t really matter.
The point of the tale is that agents aimed at knowledge workers, at their current stage of development, are risky. People who say they are using them successfully are cobbling together methods to protect themselves.
One day, perhaps soon (by 2027? 2028?), they may be ready for widespread use. Goodness knows many of us would love to help with email, grocery orders, and scheduling dentist appointments. But that day has not yet come.
Julie Bort Venture Editor
October 13-15 San Francisco, CA Save up to $680 on your pass before February 27. Meet investors. Discover your next portfolio company. Hear from 250+ tech leaders, dive into 200+ sessions, and explore 300+ startups building what’s next. Don’t miss these one-time savings.
Bill Gurley says that right now, the worst thing you can do for your career is play it safe
The 9,000-pound monster I don’t want to give back
Sam Altman would like to remind you that humans use a lot of energy, too
Google VP warns that two types of AI startups may not survive
Great news for xAI: Grok is now pretty good at answering questions about Baldur’s Gate
Russell Brandom
FBI says ATM ‘jackpotting’ attacks are on the rise, and netting hackers millions in stolen cash
Meta’s own research found parental supervision doesn’t really help curb teens’ compulsive social media use
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み