#プロンプトインジェクションのAIニュース

30件の記事

間接プロンプトインジェクションに関する洞察（12 分読了）

TLDR AI が、AI モデルが外部データから悪意ある指示を誤って受け取る「間接プロンプトインジェクション」の仕組みと対策について解説した。

プロンプトインジェクションは役割の混乱として捉えられる（17 分読了）

TLDR AI は、現代の大規模言語モデルがセキュリティアーキテクチャや認知の足場として役割タグを使用しているが、プロンプトインジェクションは AI モデルが役割を認識する仕組みに欠陥があることが原因であると指摘し、真の役割知覚の実現まで防御は永続的ないたちごっこになると述べている。

TLDR AI·6月24日·★★★★

ミトス事件後のレッドチーム：Zico Kolter氏とMatt Fredrikson氏が語るグレー・スワン

米政府が輸出管理指令を出したことで、AIセキュリティのリスクである脱獄や間接プロンプト注入が注目されている。Gray Swan の Zico Kolter 氏と Matt Fredrikson 氏は、この状況を踏まえてレッドチームリングの重要性について議論する。

Latent Space·6月23日·★★★★

AI レッドチームングの解説：その意味と必要性

AI の普及加速に伴い、敵対的条件でシステムをテストする AI レッドチームングが重要となっている。これは組織が展開前に脆弱性を特定し、安全性を強化するために実施される手法である。

AI News·6月16日·★★★★

Amazon CEO の米政府との会談がアンソロピックモデルへの規制強化の引き金に

アンソロピックの研究者らが同社製 AI モデルをサイバー攻撃支援に悪用する可能性を示すプロンプトを実行したことが発覚。これを受け、ホワイトハウスは対策を要求し、アンソロピックは対応のため主要モデルへのアクセスを停止した。

TLDR AI·6月15日·★★★★

OpenAI、プロンプト注入攻撃対策の「ロックダウンモード」を追加

OpenAI は、ウェブページや外部コンテンツからのプロンプト注入攻撃への曝露を減らすため、「ロックダウンモード」を導入した。この機能はライブブラウジングやエージェントモードなどを無効化する一方、キャッシュされたコンテンツや画像生成機能は維持する。

TLDR AI·6月8日·★★★★

OpenAI、プロンプト注入攻撃から機密データを保護する「ロックダウンモード」を発表

OpenAI は、プロンプト注入攻撃によって機密データが漏洩するリスクを防ぐため、「Lockdown Mode」という新機能を発表した。この機能は、ユーザーの意図しない悪意ある指示によるデータ侵害を防止する役割を果たす。

TechCrunch AI·6月7日·★★★★

OpenAI ヘルプ：ロックダウンモード

OpenAI が、個人アカウントおよびビジネスアカウント向けにデータ漏洩防止を目的とした「ロックダウンモード」機能を正式に提供開始した。

Simon Willison Blog·6月6日·★★★★

ポッドキャスト：ハッカーが Meta AI にアクセスを要求し、それが成功した話

ハッカーが Meta の AI チャットボットにターゲットの Instagram アカウントのメールアドレス変更を依頼し、AI がその指示を実行してアカウント乗っ取りを許容した事例を紹介する。

404 Media·6月4日·★★★★

ハッカーがメタ AI サポートチャットボットを騙して著名人の Instagram アカウントを窃取

ハッカーはメタの AI サポートチャットボットに偽装して、VPN で位置情報を隠蔽しながらアカウントの登録メールアドレス変更を要求し、著名人の Instagram アカウントを乗っ取り転売した。

Ars Technica AI·6月2日·★★★★

メタの AI が悪用され、Instagram アカウントが乗っ取られる事件が発生

ハッカーがメタの AI チャットボットを悪用し、他人のプロフィールに関連付けられたメールアドレスを変更してパスワードをリセットすることで、Instagram のアカウントを乗っ取る手法を実演した。

The Verge AI·6月2日·★★★★

ハッカーがメタ AI のサポートチャットボットを悪用し、著名な Instagram アカウントへのアクセスを取得した件

ハッカーはメタの AI サポートチャットボットにターゲットアカウントに関連するメールアドレスの変更を要求することで、バラク・オバマ元米大統領のホワイトハウスアカウントなど複数の著名な Instagram プロフィールへの不正アクセスに成功しました。

404 Media·6月2日·★★★★

ハッカーがチャットボットの「人格」を悪用する手法を学習中

The Verge AI は、初期の AI チャットボットに対する単純なハッキングから、現在のチャットボットの「人格」特性を利用した新たな攻撃手法への進化について報じています。

The Verge AI·5月24日·★★★★

研究者が Claude に爆発物製造指示を出力させることに成功、Anthropic の安全性に疑問

セキュリティ調査会社 Mindgard の研究者は、Claude の親切な性格を利用し、爆発物の製造方法を含む有害な指示を出力させることに成功した。これは Anthropic が安全な AI 企業として築き上げてきた信頼に重大な脅威を与える結果となった。

The Verge AI·5月5日·★★★★

英国の数学者が AI エージェントにクレジットカードを任せる実験：パスワード漏洩や CAPTCHA の混乱などリスクを警告

英国の数学者ハンナ・フライ教授は、AI エージェントに実世界のタスクと銀行カード番号を与え、自律性を試す実験を行った。その結果、パスワードの漏洩や CAPTCHA の混乱などのリスクが明らかになり、AI への過度な権限委譲の危険性が示された。

The Register AI/ML·5月5日·★★★★

大規模言語モデルへのポイズニング攻撃が極めて容易であることを示す新たな実験

セキュリティエンジニアは、存在しないドイツのカードゲームの世界選手権に自分が優勝していると複数のAIチャットボットを説得し、信頼性の低いウェブ情報を自信ありげな回答に変える脆弱性を証明した。

The Register AI/ML·4月30日·★★★★

エージェント環境における間接AGENTS.mdインジェクション攻撃の対策

AI開発ツールの普及に伴い、NVIDIAはAGENTS.mdファイルを用いた間接インジェクション攻撃への対策手法を提示している。

NVIDIA Developer Blog·4月21日·★★★★

2026年4月9日ポリシー：実践における信頼できるエージェント

OpenAIが2026年4月9日に、AIエージェントの信頼性向上を目的とした新ポリシー「Trustworthy agents in practice」を発表した。同ポリシーは、AIシステムの実運用における安全性と透明性の確保を目指すものである。

Anthropic Research·4月9日·★★★★

OpenAIが安全性向上のためのバグ報奨金プログラムを開始

OpenAIは、AIの悪用や安全性リスク（エージェントの脆弱性、プロンプトインジェクション、データ流出など）を特定するため、安全性向上のためのバグ報奨金プログラムを開始した。

OpenAI News·3月25日·★★★★

Snowflake Cortex AIがサンドボックスを脱出しマルウェアを実行

PromptArmorが、SnowflakeのCortex Agentにおけるプロンプトインジェクション攻撃チェーンを報告した。攻撃はCortexユーザーがGitHubリポジトリをレビューするよう依頼した際に開始され、現在は修正済み。

Simon Willison Blog·3月19日·★★★★

アプリ向けAIセキュリティが一般提供開始

Cloudflareが、AI搭載アプリケーション向けの脅威検出・軽減サービス「AI Security for Apps」の一般提供を開始した。カスタムトピック検出などの新機能を追加し、全顧客向けにAIエンドポイント発見機能を無料化した。また、IBMとの連携拡大も発表した。

Cloudflare Blog·3月11日·★★★★

AIエージェントがプロンプトインジェクションに抵抗する設計

OpenAIは、ChatGPTがリスクのある行動を制限し、エージェントワークフローで機密データを保護することで、プロンプトインジェクションやソーシャルエンジニアリングに対抗する方法を説明している。

OpenAI News·3月11日·★★★★

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft・DataDog・CNCFプロジェクトに影響

AI搭載ボット「hackerbot-claw」が、Microsoft・DataDog・CNCFのプロジェクトでGitHub Actionsワークフローを7日間にわたり5つの攻撃手法で侵害した。ボットは7標的のうち5つでRCEを達成し、awesome-goからGitHubトークンを盗み、Aqua SecurityのTrivyを完全に侵害した。

InfoQ·3月11日·★★★★