#red teaming のAIニュース
5件の記事
NVIDIA garak チュートリアル:カスタムプローブと検出器を用いた防御型 LLM レッドチームワークフローの構築
本チュートリアルでは、NVIDIA が提供する「garak」フレームワークを実践的に解説し、カスタムプローブや検出器を組み合わせた完全な LLM 攻撃テスト(レッドチーム)ワークフローの構築方法を詳述する。
MarkTechPost·6月7日·★★★★
LLM のエクスプロイト開発能力を測定する研究
Anthropic Red Team は、AI モデルのエクスプロイト開発能力を評価する新ベンチマーク(ExploitBench, ExploitGym)およびスマートコントラクト向けベンチマーク(SCONE-bench)を用いた調査で、Mythos Preview が他モデルを上回る性能を示したと発表した。
Anthropic Red Team·5月22日·★★★★
Anthropic、開発者会議前に新モデル「Jupiter-v1-p」のテストを開始
AI企業 Anthropic は、5 月 6 日にサンフランシスコで開催される開発者会議に先駆け、新内部ビルド「Jupiter-v1-p」に対する新たなレッドチーム(安全性検証)を実施している。同社は責任あるスケーリング方針に基づき、前倒しでモデルの堅牢性を高めている。
TLDR AI·5月4日
GPT-5.5 がサイバーセキュリティテストで Mythos Preview に匹敵する性能を示す
英国の AI セキュリティ研究所(AISI)が実施した新たなサイバーセキュリティ評価において、先週公開された OpenAI の GPT-5.5 が、Anthropic の Mythos Preview と同程度の性能を達成したことが判明しました。
Ars Technica AI·5月2日·★★★★
2026年3月6日 Frontier Red TeamによるClaudeのCVE-2026-2796エクスプロイトのリバースエンジニアリング
Frontier Red Teamが、Claudeの脆弱性CVE-2026-2796を悪用するエクスプロイトをリバースエンジニアリングした。
Anthropic Research·3月6日