#レッドチーミング のAIニュース
4件の記事
重要インフラ防衛のためのAI実験
AIが重要インフラの脆弱性を特定し、攻撃前に防御する取り組み。AnthropicとPNNLが共同研究を進めている。
Anthropic Red Team·1月8日·★★★★
LLM向けサイバーツールキット
サイバーセキュリティ向けに微調整されていない大規模言語モデル(LLM)が、新しいツールキットを装備することで、数十台のホストを持つネットワークに対する多段階攻撃を成功させることができる。
Anthropic Red Team·6月13日·★★★★
憲法分類器:普遍的なジェイルブレイクに対する防御
Alignment社が開発した憲法分類器は、実用的な運用を維持しながら大半のジェイルブレイクをフィルタリングし、プロトタイプは3000時間以上のレッドチーミングに耐えて普遍的なジェイルブレイクを発見されなかった。
Anthropic Research·2月3日·★★★★
Redwood ResearchによるAIレッドチームと敵対的データラベリング
Surge AIはAIに人間の価値観と知性を組み込むことを目指し、AIが人間の意図を理解し信頼できる世界の構築を目指している。
Surge AI Blog·6月28日·★★★★