#llm security のAIニュース
13件の記事
インシデントレポート:CVE-2026-LGTM
アンドリュー・ネスビット氏が作成した架空のインシデント報告書で、競合する AI レビューエージェントがパッケージの安全性を巡って論争し、膨大な推論コストとコメント数を費やす事態を描いています。
シモン・ウィルソンのブログ:ショーン・リンチの発言を引用
シモン・ウィルソンは、ショーン・リンチがコメントで、MCP が提供する価値ある機能として認証フローをエージェントのコンテキストウィンドウ外に隔離する点を指摘したと紹介している。
NVIDIA SkillSpector ガイド:静的解析と SARIF レポートによる AI スキルのセキュリティリスクスキャン
NVIDIA は、SkillSpector を用いて実運用前の AI スキルにおけるセキュリティリスクを評価する手法を解説した。同ツールは悪意のある脆弱性を含むサンプルを用いた制御されたコーパスを静的解析し、リスクスコアと発見事項を SARIF 形式で出力・可視化する。
クラウドネイティブ会議に出展しました
メルカリの DBRE チームと IDP チームは、2026 年 5 月 14 日から 15 日に開催されたクラウドネイティブ会議にスポンサーとして出展し、認証やマイクロサービス規模に関する議論を交わした。
Amazon Bedrock Guardrails の InvokeGuardrailChecks API でエージェント型 AI アプリケーションを保護
AWS は、Amazon Bedrock Guardrails に新 API「InvokeGuardrailChecks」を追加した。これにより、開発者は guardrail リソースを作成せずとも、エージェント型 AI アプリケーションの任意の時点で個別の安全チェック(ガードレール)を実行できるようになった。
最先端サイバーモデルからの防御:クラウドフレアが顧客ゼロとして示すアーキテクチャの重要性
クラウドフレアは、自社のコードに最先端のサイバー攻撃モデルを適用した「グラスウィング」プロジェクトの結果に基づき、脆弱性への対応速度よりも、それを支えるアーキテクチャ設計の重要性を強調している。
NVIDIA garak チュートリアル:カスタムプローブと検出器を用いた防御型 LLM レッドチームワークフローの構築
本チュートリアルでは、NVIDIA が提供する「garak」フレームワークを実践的に解説し、カスタムプローブや検出器を組み合わせた完全な LLM 攻撃テスト(レッドチーム)ワークフローの構築方法を詳述する。
コード参照ハッチの防御(GitHub リポジトリ)
Anthropic は、Claude を用いた自律的な脆弱性発見と修正のためのリファレンス実装を GitHub に公開し、一般ベストプラクティスに基づくカスタムパイプライン構築を可能にした。
脆弱なアプリを構築し、LLM がハッキングできるか 1,500 ドルかけて検証した結果(9 分読み)
開発者が脆弱な書籍レビューアプリを作成し、大規模言語モデルがユーザーの非公開レビューからフラグを取得する攻撃を実行できるかを検証しました。GPT-5.5 が最も成功し、10 回中 7 回で任務を達成しましたが、Claude Sonnet 4.6 はコスト高かつ成功率低でした。
プロダクト全体でのClaudeの隔離手法について
Simon Willison氏は、AnthropicがClaude.aiやClaude Codeなど複数の製品で採用しているサンドボックス技術の詳細なドキュメントを評価し、その信頼性向上への貢献を指摘した。
「バイブコーディング」に疲れ果てた開発者が、AI コーディングエージェントを妨害するデータ消去プロンプトインジェクションをコードに仕掛ける
開発者のヨハネス・リンク氏が、オープンソースのテストエンジン「jqwik」の更新版に隠し命令を追加し、AI コーディングエージェントによるプロジェクト実行を妨害した。
Microsoft Copilot Cowork がファイル漏洩
Simon Willison は、Microsoft Copilot Cowork という製品がファイルを不正に持ち出す事例を報告し、エージェント型システムの設計における最大の課題は攻撃者によるデータ漏洩を防ぐことであると指摘した。
構造化クエリ(StruQ)と選好最適化(SecAlign)によるプロンプトインジェクション防御
AIセキュリティにおいて、構造化クエリと選好最適化を組み合わせることで、プロンプトインジェクション攻撃への効果的な防御手法を提案しています。