AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Latent Space·2026年6月23日 06:06·約24分で読める

ミトス事件後のレッドチーム:Zico Kolter氏とMatt Fredrikson氏が語るグレー・スワン

#プロンプトインジェクション#レッドチームング#エージェントセキュリティ#Gray Swan#AI ガバナンス
TL;DR

米政府による Mythos への輸出規制を機に、Gray Swan の創設者らが AI セキュリティの新たなパラダイムとして「グレースワン」リスクやエージェント特有の脆弱性、AI による自動レッドチームングの重要性について解説している。

AI深層分析2026年6月23日 07:04
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

グレースワン現象と輸出規制の影響

米政府が Mythos や Fable に対する輸出管理指令を発令したことで、 Jailbreak や間接プロンプトインジェクションのリスクが顕在化し、「誰もが予見できるが起きるかどうか不明な」グレースワン事象としての AI セキュリティリスクが議論されている。

2

エージェント特有の脆弱性とセキュリティの再定義

従来のサイバーセキュリティとは異なり、AI エージェントは「人間とブラウザの相互作用」や「自己アイデンティティ」に起因する新たな脆弱性クラスを持ち、LLM は人間とは異なる形で失敗するため、専用のセキュリティマインドセットが必要である。

3

AI による自動レッドチームングの台頭

Anthropic の Shade や Gray Swan のツールのように、専門的なレッドチームングモデルが人間を凌駕して脆弱性を発見できるようになり、今後の AI セキュリティは「AI が AI を攻撃・防御・解釈する」サイクルに依存するようになる。

4

AI セキュリティの根本的な違いと「モデルの大きさ」の限界

より大きなモデルが自動的に堅牢になるわけではなく、不確かなデータや機密情報の漏洩といった「致命的なトリプレット」が存在するため、従来のセキュリティ手法では不十分である。

5

エージェント型 AI における新しい脅威と防御

OpenClaw のようなコンピュータ操作を行うエージェントの台頭により、プロンプト注入攻撃が深刻化しており、これに対処するにはネイティブなアイデンティティ管理と権限制御が必要となる。

6

AI セキュリティの保険・コンプライアンス化

最初の重大な AI プロンプト注入インシデントは避けられないと予測されており、今後は企業のリスク管理として AI 保険や規制対応が不可欠になる。

7

AI のセキュリティマインドの転換

AI システムは従来のソフトウェアとは異なる振る舞いをし、人間をだますような固有の脆弱性を持つため、異なるセキュリティ思考が必要である。

影響分析・編集コメントを表示

影響分析

この記事は、政府規制という外部圧力によって AI セキュリティの重要性が急激に高まる中、業界が従来の防御策から「AI エージェント固有のリスク」や「AI による自動化攻撃・防御」へとパラダイムシフトしていることを示唆しています。特に、専門的なレッドチームングツールが人間を凌駕する現状は、開発者がセキュリティ評価プロセスを根本的に見直す必要性を強く迫るものであり、今後の AI ガバナンスとコンプライアンスの在り方に大きな影響を与えるでしょう。

編集コメント

政府の輸出規制という政治的出来事が、技術的なセキュリティリスク(プロンプトインジェクション等)の認識を劇的に高めた事例として注目すべきです。特に「AI が AI を攻撃する」未来像は、開発者が単なる防御だけでなく、敵対的生成モデルを活用した評価体制の構築を急ぐべき理由を示しています。

AI Engineer World's Fair の通常チケットは本日〜販売終了となります!来週の Late Bird 価格引き上げ前に参加して、出席者向けに 40,000 ドル以上のスポンサークレジットを獲得しましょう!

米国政府が Mythos および Fable に対する輸出管理指令を発令したことで、ジャイルブレイク(脱獄)や業界用語である間接プロンプトインジェクションのリスクが突然話題となっています。しかし私たちは数年にわたり AI セキュリティをカバーしており、Hackaprompt から謎めいた Pliny the Elder まで取り上げてきました。

OpenAI の取締役会における安全性・セキュリティ委員会のメンバーである Zico Kolter 氏と、CMU の教授であり Gray Swan の CEO である Matt Fredrikson 氏は、間接プロンプトインジェクションに関する決定版論文の共著者です。また、Gray Swan は Mythos モデルカードにおいて引用権限を持つ機関として、現在厳しく審査されている正確な機能について直接調査を行いました。

image
image

私たちは彼らに、AI レッドチームの現状と、Anthropic がコード環境におけるプロンプトインジェクション攻撃に対するモデルの堅牢性を評価するために使用した敵対的レッドチームツール「Shade」について質問する機会を捉えました。Shade は、Simon Willison 氏の「Lethal Trifecta(致命的な三つ組)」に対応する包括的なツールの一部であり、そこには AI ガイドライン製品である Cygnal や、AIRT の有名人である Wyatt Walls 氏を含む世界最大規模の AI レッドチームアリーナも含まれています。

すべてのセキュリティツールがあるにもかかわらず、私たちは避けられないものを先延ばししているに過ぎません。

極めて賢い AI のリスクは、誰もがその到来を予見できるイベントである「グレー・スワン」事象のように感じられます。

今回のエピソードでは、Gray Swan の共同創設者である Zico Kolter 氏と Matt Fredrikson 氏が swyx とともに、なぜ AI セキュリティが単なる「AI を用いたサイバーセキュリティ」ではないのか、なぜエージェントは新たな脆弱性のクラスをもたらすのか、そして次の主要な AI インシデントがグレー・スワン(発生確率は低いが、発生する前に明確に予見可能)である理由について解説します。

私たちは、プロンプトインジェクション、自動化されたレッドチーム、モデルの堅牢性、エージェントのアイデンティティ、コンピューター使用型エージェント、エンタープライズガードレール、そして台頭しつつある AI 保険/コンプライアンススタックについて深く掘り下げます。Zico と Matt はまた、フロンティアモデルがスケールするにつれて自動的に安全になるわけではない理由、専門的なレッドチーム用モデルがすでに人間を凌駕して AI システムの破壊に成功し始めている理由、そして AI セキュリティの未来が AI システム同士が攻撃・防御・解釈し合うことに依存するかもしれない理由についても説明します。

議論のポイント:

  • 従来のソフトウェアとは異なるセキュリティマインドセットを AI システムが必要とする理由
  • プロンプトインジェクションが Codex や Claude Code といったエージェントにとって新たなエクスプロイトクラスを生み出す仕組み
  • Gray Swan Arena とコミュニティレッドチームの台頭
  • モデル破壊において人間を上回る能力を持つ AI「Shade」
  • 人間とは異なる形で失敗する異質な知性である LLM の性質
  • 人間とブラウザエージェントの堅牢性の比較、および人間がなぜ第4位にランクされたかの理由
  • 評価(eval)への意識と能力誘発(capability elicitation)の重要性

シグナル:ポリシー強制のためのグレー・スワンのガードレールモデル

なぜより大きなモデルが自動的に堅牢になるわけではないのか

致命的なトリオ:信頼できないデータ、プライベートデータ、そして情報漏洩

なぜ「プロンプトをより良くするだけ」ではエンタープライズ AI セキュリティには不十分なのか

OpenClaw、コンピューター使用エージェント、そしてエージェントセキュリティの悪夢

ネイティブ・アジェント型アイデンティティ、権限、およびエンタープライズ展開

なぜ AI セキュリティが保険やコンプライアンスの一部となる可能性があるのか

なぜ最初の主要な AI プロンプトインジェクション侵害は避けられない可能性が高いのか

グレー・スワン

ウェブサイト:https://www.grayswan.ai/

ジコ・コルター

X: https://x.com/zicokolter

ウェブサイト:https://zicokolter.com/

LinkedIn: https://www.linkedin.com/in/zico-kolter-560382a4/

マット・フレドリクソン

ウェブサイト:https://www.mattfredrikson.com/

LinkedIn: https://www.linkedin.com/in/matt-fredrikson-7596349/

タイムスタンプ

00:00:00 イントロダクション

00:02:31 なぜ AI セキュリティは異なるのか

00:06:38 Claude、Codex のテストとプロンプトインジェクション

00:07:47 グレー・スワン・アリーナと自動化されたレッドチーム演習

00:11:14 人間よりもモデルを破綻させる AI

00:14:00 異星人のような知能としての大規模言語モデル(LLM)

00:19:00 人間対 AI エージェント

00:24:35 レッドチーム演習、ジールブレイク、および能力の引き出し

00:26:11 シグナル:AI エージェントのためのガードレール

00:34:04 致命的なトリオ

00:39:31 AI は AI 研究を自動化できるのか?

00:45:47 OpenClaw とコンピューター使用セキュリティの問題

00:50:44 エージェントのアイデンティティ、権限、およびエンタープライズ AI

00:54:24 AI セキュリティの未来

01:00:30 AI 保険とコンプライアンス

01:04:32 誰もが予見していたグレイ・スワン・イベント

01:06:04 クロージングの言葉

通訳テキスト

イントロダクション:グレイ・スワン、AI セキュリティ、そして CMU

Swyx [00:00:00]: 私たちはスタジオで Gray Swan の Matt と Zico と共にいます。ようこそ。

Zico [00:00:08]: ここにいられて光栄です。

Matt [00:00:09]: お招きいただきありがとうございます。

Swyx [00:00:10]: ピッツバーグからのご来訪ですか?ここはあらゆる優れたコンピュータサイエンスの故郷です。言い過ぎでしょうか。非常に強力な大学ですね。

Zico [00:00:18]: CMU は、この分野が黎明期を迎えて以来、多くの AI の中心地となってきました。

Swyx [00:00:22]: 特に自動運転や言語学習の分野で多くを担っています。シリーズ A 資金調達の成功をお祝いします。今回は Snowflake Summit に出席するためにお越しくださいましたね。Snowflake は你们的投資家の一人です。冒頭で簡潔に、Gray Swan とは何か、そしてスタートアップとしてどのドメインを選んだのかをご紹介いただけますか?

Matt [00:00:42]: Gray Swan における私たちの使命は、誰もが AI を安全かつ確実に活用できるように支援することです。大規模言語モデル(LLM)もソフトウェアの一つであり、これらを実装したり、その上にアプリケーションを構築したりする際には、脆弱性や何が起きうるかを理解する必要があります。そこには、エージェントが誤ったツール呼び出しを行うといった日常的なミスも含まれますし、攻撃者がエージェントの誤動作を誘発させたり、データを漏洩させたり、認証情報を盗んだりするインセンティブを持つ最悪のシナリオも含まれます。Gray Swan は、私たちがカーネギーメロン大学で行った研究から生まれました。そこで私は Zico と共に、過去 10 年以上にわたり、深層学習システムにおける新たな脆弱性と攻撃対象領域を研究してきました。それらをどのようにテストし、その深刻度を理解し、推論をより堅牢にするかについてです。

敵対的例と AI セキュリティが異なる理由

Swyx [00:02:05]: 正直に言って、学術研究者にとって非常に実りの多い研究分野です。10 年前の話を振り返ると、それはまさに私の全盛期そのものです。私はポッドキャストの友人である Ian Goodfellow の仕事から多くのインスピレーションを得ました。これは初期の敵対的設定の一つです。

Matt [00:02:23]: この論文は、Ian の研究に直接影響を受けています。

Swyx [00:02:29]: Zico さん、あなたの側からの物語はどうですか?

Zico [00:02:31]: マットと同様に、私もカーネギーメロン大学の教員として長く務めてきました。根本的に私たちは AI の変革力に信を置いています。すでにソフトウェアエコシステムを変容させ、今後さらに多くのエコシステムを変えていくでしょう。問題は、これらのシステムが私たちが慣れ親しんだソフトウェアとは非常に異なる振る舞いをする点です。私が言いたいのは、AI がソフトウェアの脆弱性を発見できるというだけでなく(もちろんそれも可能ですが)、AI システム自体に固有の脆弱性を持っているということです。人間がだまされるように、AI もだまされ得ます。そのため、異なるセキュリティマインドセットが必要です。

Zico [00:03:23]: これは特に、相関する故障の可能性が生じる場合に重要です。単に AI システムが多く存在しているというだけでなく、誰もが少数のモデルを利用しているからです。Codex や Claude Code など、誰もが利用するエージェントに脆弱性を見つけた場合、それは新たな種類の攻撃手法となります。各研究所はここで多くの取り組みを行っていますが、新しいプラットフォームが登場すると、それと同時に別のセキュリティシステムも現れるのが常です。まさに AI において私たちが置かれている状況就是这样で、AI の安全性とセキュリティに特化した専門的な提供者が必要であり、その需要は今後さらに高まっていくでしょう。

モデルを信頼できないシステムとして扱う

Swyx [00:04:55]: まず冒頭で強調しておきたいのは、これは従来の意味でのサイバー事件ではないということです。タイトルを見て多くの人がそう考えるかもしれませんが、実際にはこれらのモデルを本質的に信頼できないエンティティとして扱おうとしているのです?

Zico [00:05:11]: その通りです。これはよくある混同ですが、AI はサイバーセキュリティ問題の解決にも原因の提供にも優れているためです。しかし、AI システム自体が新たな脆弱性を生み出します。Gray Swan(グレー・スワン)は、AI を用いてサイバーインフラをより良くすることではありません。それは、AI の採用と展開に伴って持ち込まれるセキュリティリスクを理解し、軽減することに関するものです。

Matt [00:05:49]: その大きな部分は、人々が人工知能(Artificial Intelligence)をどのように利用しているかにかかっています。モデルの上に完全な自律システムを構築し、それをより広範なプラットフォームやネットワークに統合すると、潜在的なサイバーセキュリティリスクが生じます。目標は、AI がもたらすリスクを、より広範なサイバーセキュリティの目標に関連して軽減することです。

Claude, Codex のテストと間接プロンプトインジェクション

Zico [00:06:17]: この一部がレッドチーム(Red Teaming)です。私たちがあなたに連絡した理由の一つは、あなたが Claude Mythos プレビューに関わっており、IPI(Indirect Prompt Injection:間接プロンプトインジェクション)の権威者の一人だったからです。モデルを受け取った際、それが必ずしも Mythos である必要はありませんが、現時点では最も注目されているのがそれです。では、それをどう扱うべきでしょうか?

Matt [00:06:38]: 私たちは様々な取り組みを行っています。Mythos のケースでは、Anthropic 側の懸念は、モデルが間接的なプロンプトインジェクションに対してどれほど堅牢であるかという点です。コーディングエージェントを運用し、Mythos をモデルとして使用する場合、信頼できないコンテンツを取得して制御下にないテキストを読み込むことになります。その際、元の目的に忠実に留まり、乗っ取られないようにする能力がどの程度あるかが問われます。また、サイバー悪用などの問題に対するセーフガードのテストを最先端研究所にも支援しています。広義には、モデル構築者が一連のイテレーションから次のイテレーションへの進捗を評価できるよう、敵対的な安全性およびセキュリティ評価を提供しています。

Zico [00:07:37]: 彼ら自身でもこれを行っており、Anthropic はそれを非常に思想的に重視しています。彼らが外部委託するか、社内で行くかを選ぶ基準は何でしょうか?

Gray Swan Arena and Automated Red Teaming

Matt [00:07:47]: 私たちが特に際立っていると思う点は 2 つあります。1 つ目は Gray Swan Arena です。私たちはレッドチームャーのコミュニティを運営しており、賞金付きチャレンジを提供しています。これらの多くはラボのスポンサーからのニーズに基づいています。ある程度、レッドチームングの目標をゲーム化し、賞金プールを設定し、モデル開発者が定めた安全性やセキュリティの目標を回避・違反する方法を見つけた人々に報酬を支払います。これが 1 つ目のポイントです。これは非常に素晴らしいコミュニティで、Discord サーバーには約 15,000 人が参加しています。全員がすべての競争に参加するわけではありませんが、このコミュニティを通じて、多くの貴重なデータと明確なシグナルが上流のモデル開発者に提供されています。

2 つ目は、私たちが行う自動化されたレッドチームングです。私たちは、ベースモデル(ツールなしのターンベース型チャットボットとして)およびその上に構築されたエージェントに対して、非常に効果的で厳密に自動化されたレッドチームングを行うように訓練されたモデルファミリーを運用しています。この分野はまだ飽和しておらず、最先端ラボが私たちに相談に来た際も、間接プロンプトインジェクションやジールブレイク( Jailbreak)[監獄脱出]、あるいは一般的にモデルが望まない行動をとらせる方法をまだ見つけることができます。

Zico [00:09:11]: ツールなしと言いましたか?

Matt [00:09:12]: ツールありとツールなしの両方です。

Zico [00:09:13]: ツールありとツールなしの両方ですね。

Matt [00:09:13]: はい、私たちはエージェントについても確実に運用しています。

Zico [00:09:16]: 当然ながら、そちらの方がより有用でしょう。

Matt [00:09:17]: はい、それは実はかなり最近の動きです。しばらくの間、私たちがフロンティア・ラボに対して支援していたのは、主にチャットベースのインタラクションを通じて、そのコンテンツセーフティポリシーやモデル仕様書に含まれる内容にどう対処するかというものでした。現在では焦点は非常に明確にエージェントやツール利用、そして人々が構築しようとするすべての下流アプリケーションへと移っています。

Shade: 自動化されたレッドチーム化モデル

Zico [00:09:39]: これは刺激的な話題です。同じファミリーのモデル、同じデータセットから生まれたモデル同士で、自分自身をレッドチーム化する能力を持つようなポリシーベースのレッドチーム化というものが存在するかどうか、私は疑問に思っています。

Matt [00:09:51]: それは興味深い質問ですね。残念ながら、私たちはより小さなオープンソースモデルを用いてその可能性を検証する能力を持っています。

Zico [00:09:58]: 一般的に、この問題の核心は、フロンティアモデル(最先端モデル)が自動的なレッドチーム(攻撃的テスト)において極めて苦手だということです。これらには多くのセーフガード(安全装置)が組み込まれているためです。したがって、他のモデルをジャイルブレイク(セキュリティ回避)するために使用しようとすると、実際には拒否します。ベースモデルとしての安全性トレーニング自体は時として迂回可能ですが、多くの場合、この作業を拒否します。おそらく仮説的には方法を知っているかもしれませんが、実際に実行するには追加の条件が必要です。これは重要なポイントです。なぜなら、従来、安全性の分野では、他の多くの領域でモデルが大型化することで性能が向上するのとは異なり、モデルが大きくなるだけで安全性が高まるわけではないからです。伝統的に安全性はそうではありませんでした。安全であるためには明示的なトレーニングが必要であり、そうでなければ実現されません。一方で、デフォルトではレッドチームにおいても必ずしも優れているわけではありません。レッドチームに特化した専門モデルをトレーニングして初めて、その分野での能力を高めることができます。

Matt [00:10:56]: それはあなたたちにとって素晴らしいことです。

Zico [00:10:58]: では、それを実現するために何が必要でしょうか?もちろん、従来からレッドチーム(※red teaming)に長けた人々からの大量のデータが必要です。しかし、私たちが発見していることの一つ、そして実は私たちもその転換点を超えつつあると考えていますが、最新の多くの実験において、人間のリテームチームよりもはるかに優れた成果を上げられることがわかりました。ここで言う「私たち」とは、私の自動レッドチームモデルのことです。このシステムの名前は Shade です。現在、このシステムはモデルの脆弱性を突く能力において、人間よりもはるかに優れています。最近、人間と私たちのモデルとの間で競争が行われましたが、その結果、私たちのモデルの方がはるかに優れた成績を収めました。したがって、これは通常のモデルの進歩とは根本的に異なる側面が多いと考えています。なぜなら、それは分布外(※out of distribution)の事象にあまりにも近いからです。ある意味で、レッドチームモデルの本質は、そのモデルにとって本質的に分布外の事象を見つけ出し、通常の動作を迂回させることにあります。つまり、これは多くのモデルが通常行うこととは根本的に異なる性質のものなのです。

Matt [00:12:01]: Zico さん、あなたは今、このアリーナにいる全員に対して挑戦状を突きつけたことになりますね?

Zico [00:12:06]: Shade よりも優れた成果を出してみせることだ。

Matt [00:12:07]: その通りです。ただし、少し補足させてください。特定のタスクセットに対して固定された時間枠が与えられているという前提がありますよね。まだ超人的なレベルのレッドチームングには達していませんが、自動化された手法を用いて一定の時間枠内でより多くの脆弱性を自動的に発見できるようになっています。

人間によるレッドチーム、異星知性体、モデルの奇妙さ

Swyx [00:12:26]: しかし、リーダーボードが設置されているからといって、これらの人物たちの背後にある人間の物語を常に知りたいと思っています。彼らはご存知ですか?彼ら自身で有名人なのでしょうか?

Zico [00:12:35]: ワイアットは Twitter で非常に有名な方です。もしまだフォローしていないなら、ぜひ Twitter でフォローしてください。はい。

Swyx [00:12:38]: 以前に Elder Planus という方も登場されましたが、本名は存じ上げません。しかし、こうした大物パーソナリティが多数おり、彼らは各自の分野で極めて優秀です。

Matt [00:12:49]: はい、各自の分野では非常に優秀です。

Swyx [00:12:51]: ああ、彼はオーストラリア人ですね。

Zico [00:12:53]: ワイアットさん、もしまだフォローしていないなら Twitter でフォローしてください。彼は素晴らしい投稿を多くされています。私は彼が LLM の本質について最も洞察に富んだ人物の一人だと考えています。新しいバージョンがリリースされる際も、次なる動向を知るために頻繁に彼の投稿を確認しています。弁護士の方だと思いますが、いかがでしょうか?

Matt [00:13:09]: 彼は弁護士です。

Swyx [00:13:13]: リスクの特定(レッドライニング)やレッドチームングについてですね。もう一つの話題です。はい。

Zico [00:13:16]: はい。私たちの上位競合は、往々にしてこれらを頻繁に行う人々です。

Swyx [00:13:22]: Wyatt から学んだ具体的な例は何ですか?ああ。

Zico [00:13:25]: 一般的に言えば、あるいはアレーナそのものの文脈において、どちらの意味でしょうか。彼はモデル全体の本質について素晴らしい洞察を持っていると思います。彼の Twitter をお読みいただければ、モデルの本質に関する非常に興味深い投稿が多数あり、私自身もそれらを非常に示唆に富んでいると感じています。

Swyx [00:13:42]: ライリーも同様のことを言っていますよね?そして、彼らはテストを持っていますが、そのテストは「イチゴに含まれる R の数をスペルできない」といったことではありません。このテストは、本質的に知能をモデル化していないことを示しており、それが非常に明確に現れています。

Zico [00:14:00]: それが知能をモデル化していないことを示しているとは限りません。これらのものは知性を持っていると思います。LLM(大規模言語モデル)は間違いなく知性を持っており、将来的にはさらに高度な知性を備えるかもしれません。

Swyx [00:14:07]: 意識的ですか?

Zico [00:14:07]: そのうちそうなるでしょう。

Swyx [00:14:07]: 彼らは意識を持っているのでしょうか?

Zico [00:14:08]: 「意識」という言葉は奇妙なものです。しかし、私はそうは思いません。今や私たちはあまりにも哲学的な議論に陥っていますね。

Swyx [00:14:16]: それは、正解です。

Zico [00:14:16]: 今、非常に哲学的な話になっていますね。でも、そうは思いません。私は大学で哲学を専攻しましたから、これはすでに ASA の領域を超えています。明らかに、これは人間とは異なる知性の形態です。それは極めて異質な、全く異なる種類の知性であり、その違いは実際には、敵対的攻撃やレッドチーム演習といったものによって大きく浮き彫りにされます。なぜなら、人間を欺くが AI を決して欺かない事柄もあれば、逆に AI を欺くが人間を決して欺かない事柄もあるからです。つまり、単に異なる知性の形態なのです。実は、私たちがこのように探求し、驚くほど実験的に制御可能な方法で検証する機会を持っていることは非常に興味深いことです。

Matt [00:14:59]: まるで全知全能のようですね?

Zico [00:15:02]: ここで神経科学とのアナロジーを使います。まるで脳に対して実験を行い、その中のすべてのニューロンを観察し、状態を過去の状態にリセットし、反事実的なシナリオを実行できるようなものです。これらは人間に対しては決して実行できませんが、それでも私たちはどちらも十分に理解できていません。そのような能力をすべて備えていながら、根本的なレベルではまだ AI を理解していないのです。したがって、確かにこれは異なる知性の形態ですが、明らかに

Swyx [00:15:30]: 私たちは多くのメカニズム解釈(mech interp)のポッドを実施してきましたが、正直に言って、メカニズム解釈におけるスケーリングは、能力のスケーリングに比べて2〜3桁も劣っています。つまり、私は「完全に遅れをとっている」と言いたいのです。

メカニズム解釈可能性と AI 研究の自動化

Zico [00:15:44]: さて、私は少し脱線しようと思います。ここは少し横道にそれていますが、はい。

Matt [00:15:48]: いや、むしろそれは関連していると思いますよ。どうぞ、あなたの脱線を続けてください。

Zico [00:15:51]: 私の脱線ですが、メカニズム解釈可能性(mech interp)は、能力の進展に比べてもなお非常に遅れていると感じてきました。しかし最近、私はメカニズム解釈可能性に対してより楽観的になりました。むしろそう言うべきでしょう。コーディングエージェントがこれを実証的な科学へと発展させる機会があると考えたからです。メカニズム解釈可能性における問題点、いや、問題と呼ぶのは適切ではありませんね。この分野を「分野」と呼ぶのも避けたいのですが、私はその分野の核心を担う人物ではありません。私たちが行っている作業は、大まかに言えばメカニズム解釈可能性に該当するものですが。

Swyx [00:16:19]: 皆さんにご覧いただくために。

Zico [00:16:20]: メカニズム解釈(mechanism interp)の問題点は、それが小規模な仮説の検証に留まっていることです。仮説を立てれば、その一部を特定し、それを孤立させてテストすることになります。しかし、私はまだこれが真に科学として確立されたとは考えていません。その理由の一つは、この分野に関わる人がもっと増える必要があるからです。私は、より多くの人々をこの領域に投入するプログラムを強く支持しています。しかし同時に、私たちは今まさに転換点に立っており、実際にこのプロセスの自動化を開始できる段階にあると感じています。そして、それを自動化することで、より科学的なアプローチへと昇華させることができるのです。コーディングエージェント(coding agents)に関する最も興味深い点の一つは、彼らが大量の実験を自動化して行える能力にあります。

原文を表示

AI Engineer World’s Fair regular bird tix will sell out ~today! Join us next week ahead of the Late Bird price hike and get >$40,000 in sponsor credits for attending!

Thanks to the US Government issuing an export control directive on Mythos and Fable, the risks of jailbreaks and (industry term) indirect prompt injection are suddenly the talk of the town, though we have been covering AI security for a few years now, from Hackaprompt to the enigmatic Pliny the Elder.

Zico Kolter, member of OpenAI’s board of directors on the Safety & Security Committee, and Matt Fredrikson, CMU professor and CEO of Gray Swan, co-authored the definitive paper on Indirect Prompt Injections, and Gray Swan were cited authorities on the Mythos model card, directly investigating the exact capabilities that are under scrutiny right now:

image
image

We seized the opportunity to ask them the state of AI Red Teaming, and Shade, the adversarial red teaming tool that Anthropic used to evaluate the robustness of their models against prompt injection attacks in coding environments. Shade is part of their overall toolkit covering Simon Willison’s Lethal Trifecta, including Cygnal, an AI guardrails product, and the world’s largest AI Red Teaming Arena, including AIRT celebrity Wyatt Walls.

All of this security tooling, and yet, we’re only staving off the inevitable.

The risks of extremely smart AI increasingly feel like gray swan events: an event that everyone can see coming.

In this episode, Gray Swan cofounders Zico Kolter and Matt Fredrikson join swyx to explain why AI security is not just “cybersecurity with AI,” why agents introduce a new class of vulnerabilities, and why the next major AI incident may be a gray swan: unlikely, but clearly visible before it happens.

We go deep on prompt injection, automated red teaming, model robustness, agent identity, computer-use agents, enterprise guardrails, and the emerging AI insurance/compliance stack. Zico and Matt also explain why frontier models are not automatically safer as they scale, why specialized red-teaming models can now beat humans at breaking AI systems, and why the future of AI security may depend on AI systems attacking, defending, and interpreting other AI systems.

We discuss:

Why AI systems need a different security mindset from traditional software

How prompt injection creates a new exploit class for agents like Codex and Claude Code

Gray Swan Arena and the rise of community red teaming

Shade: AI that can outperform humans at breaking models

Why LLMs are an alien form of intelligence that fail differently from humans

Human vs browser-agent robustness and why humans ranked fourth

Why eval awareness and capability elicitation matter

Cygnal: Gray Swan’s guardrail model for policy enforcement

Why bigger models do not automatically become more robust

The lethal trifecta: untrusted data, private data, and exfiltration

Why “just prompt it better” is not enough for enterprise AI security

OpenClaw, computer-use agents, and the agent security nightmare

Agent-native identity, permissions, and enterprise deployment

Why AI security may become part of insurance and compliance

Why the first major AI prompt-injection breach may be inevitable

Gray Swan

Website: https://www.grayswan.ai/

Zico Kolter

X: https://x.com/zicokolter

Website: https://zicokolter.com/

LinkedIn: https://www.linkedin.com/in/zico-kolter-560382a4/

Matt Fredrikson

Website: https://www.mattfredrikson.com/

LinkedIn: https://www.linkedin.com/in/matt-fredrikson-7596349/

Timestamps

00:00:00 Introduction

00:02:31 Why AI Security Is Different

00:06:38 Testing Claude, Codex, and Prompt Injection

00:07:47 Gray Swan Arena and Automated Red Teaming

00:11:14 AI That Breaks Models Better Than Humans

00:14:00 LLMs as Alien Intelligence

00:19:00 Humans vs AI Agents

00:24:35 Red Teaming, Jailbreaks, and Capability Elicitation

00:26:11 Cygnal: Guardrails for AI Agents

00:34:04 The Lethal Trifecta

00:39:31 Can AI Automate AI Research?

00:45:47 OpenClaw and the Computer-Use Security Problem

00:50:44 Agent Identity, Permissions, and Enterprise AI

00:54:24 The Future of AI Security

01:00:30 AI Insurance and Compliance

01:04:32 The Gray Swan Event Everyone Sees Coming

01:06:04 Closing Thoughts

Transcript

Introduction: Gray Swan, AI Security, and CMU

Swyx [00:00:00]: We’re here in the studio with Gray Swan, Matt and Zico. Welcome.

Zico [00:00:08]: Great to be here.

Matt [00:00:09]: Thanks for having us.

Swyx [00:00:10]: You’re visiting from Pittsburgh? The home of all good computer science. I don’t know if I’m overstating things. A very strong university.

Zico [00:00:18]: CMU has been the center of a lot of AI since really the dawn of the field.

Swyx [00:00:22]: Especially a lot of self-driving and some language learning. Congrats on your Series A. You’re here because you’re attending Snowflake Summit, and Snowflake is one of your investors. Let’s introduce crisply at the top: what is Gray Swan, and what have you chosen as your startup domain?

Matt [00:00:42]: At Gray Swan, our mission is to empower everyone to use AI safely and securely. Large language models are software, and if you want to deploy them or build applications on top of them, you need to understand the vulnerabilities and what can go wrong. That includes everyday mistakes, like an agent making the wrong tool call, but also worst-case scenarios where an attacker has an incentive to make your agent misbehave, leak data, or steal credentials. Gray Swan grew out of our research at Carnegie Mellon, where Zico and I have spent over a decade studying new vulnerabilities and attack surfaces in deep learning systems: how to test for them, understand their severity, and make inference more robust.

Adversarial Examples and Why AI Security Is Different

Swyx [00:02:05]: Honestly, a very fruitful area of study for any academic. Throwback, this is 10 years ago, which is basically the entirety of me. I got a lot of inspiration from Ian Goodfellow, a friend of the pod, and this is one of those initial adversarial settings.

Matt [00:02:23]: This paper was directly inspired by Ian’s work.

Swyx [00:02:29]: Zico, what about your side of the story?

Zico [00:02:31]: Like Matt, I have been faculty at Carnegie Mellon for a while. Fundamentally, we believe in the transformative power of AI. It has already transformed the software ecosystem, and it will transform many other ecosystems going forward. The issue is that these systems behave very differently from the software we are used to. I do not just mean that AI can find vulnerabilities in software, though it can. I mean that AI systems have inherent vulnerabilities of their own. They can be tricked in ways people can be tricked, so you need a different security mindset.

Zico [00:03:23]: This matters especially when there is the possibility of correlated failures. It is not just that there are many AI systems out there; it is that everyone is using a few models. If you find vulnerabilities in agents that everyone uses, like Codex and Claude Code, you have a new class of exploit. The labs are doing a lot of work here, but when a new platform emerges, a separate security system often emerges alongside it. That is where we are with AI: there is a need for specifically minded AI safety and security providers, and the demand is only going to grow.

Treating Models as Untrusted Systems

Swyx [00:04:55]: I want to highlight right at the top that this is not a cyber episode in the traditional sense. A lot of people looking at the title might think that, but you’re actually trying to treat these models inherently as untrusted entities?

Zico [00:05:11]: Exactly. This is a common conflation because AI is also good at cybersecurity problems, both solving them and causing them. But AI systems themselves introduce new vulnerabilities. Gray Swan is not about using AI to make your cyber infrastructure better; it is about understanding and mitigating the security risks you bring in when you adopt and deploy AI.

Matt [00:05:49]: A big part of that is how people are using artificial intelligence. Once you build entire autonomous systems on top of models and integrate them into your larger platform or network, you have a potential cybersecurity risk. The goal is to mitigate the risk posed by the AI as it relates to your broader cybersecurity goals.

Testing Claude, Codex, and Indirect Prompt Injection

Zico [00:06:17]: Part of this is red teaming. One reason we reached out to you was that you were involved in the Claude Mythos preview, where you were one of the authorities on IPI, or indirect prompt injection. When you receive a model, it does not have to be Mythos, but that is the most prominent one right now: what do you do with it?

Matt [00:06:38]: We do a range of things. In the Mythos case, the concern from Anthropic was how robust the model is to indirect prompt injection. If you operate a coding agent and use Mythos as the model, it will fetch untrusted content and read text you do not control. How robust will it be at staying true to its original objective and not getting hijacked? We also help frontier labs test their safeguards for issues like cyber misuse. Broadly, we provide adversarial safety and security evaluations so model builders can assess progress from one iteration to the next.

Zico [00:07:37]: They also do this in-house, and Anthropic is very ideologically inclined to do it. What do they choose to outsource versus keep in-house?

Gray Swan Arena and Automated Red Teaming

Matt [00:07:47]: So there are two things that I think, we stand out for. One is the Gray Swan Arena. So we operate a community of red teamers. We provide, prize challenges. a lot of these come from the needs of the lab sponsors. so to an extent gamify red teaming objectives, put up a prize pool, and pay people when they find ways to circumvent and violate whatever the safety and security objectives of the model developers were. So that’s, that’s one. It’s, it’s a really great community, like 15,000 people come and hang out on the Discord server. Not all of them take part in every competition, but a lot of a lot of good data and good signal is provided to the upstream model developers through that community. The second is the automated red teaming that we do. So we train, a family of models to be very effective and rigorous at doing automated red teaming, both of the base model, right? So just thinking of it, as a turn-based, chatbot without tools or anything, and agents built on top of it. And it hasn’t been saturated yet, so when the frontier labs come to us, we’re still able to find ways to indirect prompt injection or jailbreak or just generally get their models to do things that they wouldn’t want to.

Zico [00:09:11]: Did you say without tools?

Matt [00:09:12]: With and without tools.

Zico [00:09:13]: With and without tools.

Matt [00:09:13]: So we definitely operate on On agents as well.

Zico [00:09:16]: Obviously that would be more useful.

Matt [00:09:17]: Yep. that’s, that’s actually a fairly recent thing. For a while, what we would help, the frontier labs with was more just, chat-based interactions, going around their content safety policies and what is in their model spec. Now the focus is very much on agents and tool use and all the downstream applications that people want to build on top.

Shade: Automated Red Teaming Models

Zico [00:09:39]: This is a inspired topic. I wonder if there’s any such thing as, on policy red teaming where our models from the same family, same data set, more capable of red teaming themselves.

Matt [00:09:51]: That’s an interesting question. We unfortunately we do have the ability to test that out on smaller open-source models.

Zico [00:09:58]: So generally speaking, the issue with this is that frontier models are extremely bad at automated red teaming Because they have a lot of safeguards built into them. So if you try to use them to jailbreak another model, they will actually refuse. Their safety training, which is itself as a base model, can sometimes be bypassed, but they will often refuse to do this. Maybe they’ll hypothetically know how to do it, but you need And it’s actually an important point because traditionally, this has been an area where both in terms of safety, models don’t get better by just being bigger, unlike most other areas where models do get better by being bigger. Safety has not been like that traditionally. you have to train them explicitly to be safe or they won’t do that. But on the flip side, they’re also not necessarily better at red teaming, by default. You really need to train specialized models for red teaming to make them good at red teaming.

Matt [00:10:56]: That’s awesome for you guys.

Zico [00:10:58]: And so, and what do you need to do that? Well, you need lots of data From people that are traditionally much better at red teaming. However, one thing that we are finding, and this is actually, I think, we’re, we’re kind of crossing this point too, is that in a lot of the latest experiments, We can do much better than people, than human red teamers now at breaking these models. When I say we, our automated red teaming model. It’s a system called Shade. That system is now actually quite a bit better at breaking, models than humans are. I think we had a recent competition Between humans and our model, and it was actually quite a bit better. So I think, I think that there’s a lot of ways in which this is a bit different than what we see with normal model progress because it’s so out of distribution. In some sense, the nature of a red teaming a model is to find things that are inherently out of distribution for that model, so as you can bypass its normal behavior. And so that fundamentally is a different thing than what most models can do.

Matt [00:12:01]: Zico, I want to point out that you just threw up a challenge for everyone on the arena, right?

Zico [00:12:06]: Try to do better than Shade,

Matt [00:12:07]: It will, and I do want to caveat that a little bit. I think, it’s, it’s given a fixed amount of time for a specific Set of tasks and everything, right? I don’t think we’re quite to superhuman levels of red teaming yet, but we can find more breaks automatically, like given a window of time with the automated techniques.

Human Red Teamers, Alien Intelligence, and Model Weirdness

Swyx [00:12:26]: But just because we had the leaderboard up, and I always love to find out the human story behind some of these folks. Do you I assume some of them. Are they celebrities in their own right? what’s

Zico [00:12:35]: Wyatt’s a big person on Twitter. You should, you should follow him on Twitter If you’re not already. Yeah.

Swyx [00:12:38]: So, we’ve had, Elder Planus on, I don’t know his real name, but yeah, there’s all these big personalities, and they’re, they’re extremely good at what they do.

Matt [00:12:49]: They’re, they’re very good at what they do.

Swyx [00:12:51]: Oh, he’s an Aussie.

Zico [00:12:53]: Wyatt, you should follow him on Twitter if you haven’t already. He makes, he makes great He makes these really insightful posts. I think he’s one of the most insightful people about the nature of LLMs and when new versions come out, I actually frequently look to him to see what’s next. He’s a lawyer, I think, right?

Matt [00:13:09]: He’s an attorney.

Swyx [00:13:13]: There’s red lining, red teaming The other thing. Yep.

Zico [00:13:16]: Yes. Our top, competitors are often people that, Do this a lot.

Swyx [00:13:22]: What’s an example of a thing that you’ve learned from Wyatt? Oh.

Zico [00:13:25]: I think in general, just, you mean in the context of the arena itself Or you mean in general terms of this? I think he just has great insights in the nature of models as a whole. And if you read his Twitter, you’ll find a bunch of really interesting posts about the nature of models That I tend to find very insightful.

Swyx [00:13:42]: Riley’s like this as well, right? And it’s just well, they have the test, but the test isn’t about, haha, you can’t spell the number of Rs in strawberry. The test is, well, you’re actually not modeling intelligence inherently, and this shows it in a very

Zico [00:14:00]: I don’t know that it shows that you’re not modeling intelligence. I think these things are intelligent. I think LLMs absolutely are intelligent and maybe will be more intelligent

Swyx [00:14:07]: Conscious?

Zico [00:14:07]: At some point.

Swyx [00:14:07]: Are they conscious?

Zico [00:14:08]: Conscious is a weird word But I actually don’t, I don’t think so. I think, I think the way that we’re getting super philosophical now.

Swyx [00:14:16]: That’s, that’s the right answer.

Zico [00:14:16]: We’re getting very philosophical now. But I don’t think so. I studied philosophy in college, so this is, this has been, this is past ASA at this point. It is clearly a different form of intelligence than people. It’s some alien intelligence that is vastly different, and that difference is actually often brought out to a large degree by things like adversarial attacks and red teaming because there are certain things that fool humans that would never fool an AI, but there are certain things that fool AIs that would never fool a human, right? So it’s just, it’s just a different form of intelligence. It’s really interesting actually that we have the opportunity to probe and in a really amazingly experimentally controllable fashion.

Matt [00:14:59]: Like almost omniscient, right?

Zico [00:15:02]: I’m, I’ll, I’ll do the analogy to neuroscience here. It’s like we could run experiments on the brain, observe every neuron in it, reset its state to prior states, and run counterfactuals, none of which we can do with humans, and yet we still understand neither very well. Even with that, all that ability, we still don’t understand AI, on some fundamental level. So it’s, it’s definitely this different form of intelligence, but it’s clearly

Swyx [00:15:30]: We’ve done a number of mech interp pods, and you can see honestly the scaling in mech interp is two, three orders of magnitude less than capability scaling. so we’re hopelessly behind is what I’m saying.

Mechanistic Interpretability and Automating AI Research

Zico [00:15:44]: So I have, I could go off. It’s a little off tangent here. We’re getting, we’re getting, we’re getting, we’re getting a bit, but yeah.

Matt [00:15:48]: Well, no, I think it actually, it does relate, right? Go ahead. Do your tangent.

Zico [00:15:51]: So my tangent here is I have felt that mech interp is also very far behind where capabilities are. I am newly optimistic, or I should say more optimistic about mech interp In that I think actually, as with many things, coding agents have a chance to make this into a science. So the problem with mech interp, and I’m Okay, so I shouldn’t say the problem. I don’t want to call it a field. I’m, I We do some work that I would say Is roughly mech interp, but I’m certainly not a core person in that field.

Swyx [00:16:19]: For folks to see.

Zico [00:16:20]: The problem with mech interp is it’s it’s, it’s been about testing small hypotheses and you have a hypothesis, you’ll find some small thing, you’ll test that in isolation. But I don’t think it’s really become a science yet, and that’s partly because there could be more people in it and I support programs very much that put more people in it. But I also feel like we are at this cusp where we can actually start to automate this process and in automating it, make it more of a science. And that’s actually one of the most fascinating things about coding agents actually, is they can, they can do a lot of experimentation In an in an automate

この記事をシェア

関連記事

AI News★42026年6月16日 17:06

AI レッドチームングの解説:その意味と必要性

AI の普及加速に伴い、敵対的条件でシステムをテストする AI レッドチームングが重要となっている。これは組織が展開前に脆弱性を特定し、安全性を強化するために実施される手法である。

The Register AI/ML★42026年5月6日 02:00

ServiceNow、AI コントロールタワーを拡張しエージェントの運用を承認

ServiceNow は AI コントロールタワーを拡張し、同社プラットフォーム外の資産を含む全社の AI エージェント管理を可能にするコマンドセンターへと進化させた。この新機能は発見、監視、ガバナンス、セキュリティ、測定の 5 つ領域で稼働する。

TLDR AI★42026年6月24日 09:00

間接プロンプトインジェクションに関する洞察(12 分読了)

TLDR AI が、AI モデルが外部データから悪意ある指示を誤って受け取る「間接プロンプトインジェクション」の仕組みと対策について解説した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む