#red teaming のAIニュース

5件の記事

NVIDIA garak チュートリアル：カスタムプローブと検出器を用いた防御型 LLM レッドチームワークフローの構築

本チュートリアルでは、NVIDIA が提供する「garak」フレームワークを実践的に解説し、カスタムプローブや検出器を組み合わせた完全な LLM 攻撃テスト（レッドチーム）ワークフローの構築方法を詳述する。

LLM のエクスプロイト開発能力を測定する研究

Anthropic Red Team は、AI モデルのエクスプロイト開発能力を評価する新ベンチマーク（ExploitBench, ExploitGym）およびスマートコントラクト向けベンチマーク（SCONE-bench）を用いた調査で、Mythos Preview が他モデルを上回る性能を示したと発表した。

Anthropic Red Team·5月22日·★★★★

Anthropic、開発者会議前に新モデル「Jupiter-v1-p」のテストを開始

AI企業 Anthropic は、5 月 6 日にサンフランシスコで開催される開発者会議に先駆け、新内部ビルド「Jupiter-v1-p」に対する新たなレッドチーム（安全性検証）を実施している。同社は責任あるスケーリング方針に基づき、前倒しでモデルの堅牢性を高めている。

TLDR AI·5月4日

GPT-5.5 がサイバーセキュリティテストで Mythos Preview に匹敵する性能を示す

英国の AI セキュリティ研究所（AISI）が実施した新たなサイバーセキュリティ評価において、先週公開された OpenAI の GPT-5.5 が、Anthropic の Mythos Preview と同程度の性能を達成したことが判明しました。

Ars Technica AI·5月2日·★★★★

2026年3月6日 Frontier Red TeamによるClaudeのCVE-2026-2796エクスプロイトのリバースエンジニアリング

Frontier Red Teamが、Claudeの脆弱性CVE-2026-2796を悪用するエクスプロイトをリバースエンジニアリングした。

Anthropic Research·3月6日