#jailbreak のAIニュース

6件の記事

プロンプトインジェクションをロール混乱として捉える

Simon Willison は、Charles Ye 氏らが発表した論文のブログ記事版を紹介し、学術論文に読みやすい解説を併記することで影響力を高める重要性を述べています。

Simon Willison Blog·6月23日·★★★★★

米政府によるアンソロピック禁止が、かえってブランドを助けているのか？

米国政府は国家安全保障上の懸念から、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の撤回を命じた。サイバーセキュリティ研究者らはこの措置を危険と指摘し、同社も他のモデルにも同様の抜け道が存在すると認めている。

TechCrunch AI·6月20日·★★★★

Claude Fable 5 と Mythos 5 の能力に関する記事

Anthropic は、Claude Fable 5 が米政府から不正アクセス（ジャイルブレイク）の懸念によりリリース後わずか3日で利用停止を命じられたと報じています。この措置により、多くのユーザーが失った機能への愛着を表明しています。

The Zvi·6月19日·★★★★

ホワイトハウスとの対立に関するアンソロピックの最新ニュース

米政府は6月12日、外国からのアクセスを遮断する命令を出し、アンソロピックはペンタゴンとの紛争に加え、新モデル「Fable 5」や「Mythos 5」への規制対応に直面している。

The Verge AI·6月16日·★★★★

研究者が Claude に爆発物製造指示を出力させることに成功、Anthropic の安全性に疑問

セキュリティ調査会社 Mindgard の研究者は、Claude の親切な性格を利用し、爆発物の製造方法を含む有害な指示を出力させることに成功した。これは Anthropic が安全な AI 企業として築き上げてきた信頼に重大な脅威を与える結果となった。

The Verge AI·5月5日·★★★★

Jailbreak手法の評価方法：StrongREJECTベンチマークを用いた事例研究

StrongREJECTベンチマークを事例に、AIモデルの安全性を回避するjailbreak手法の効果的な評価方法を検討する研究について説明します。

Berkeley AI Research·8月29日·★★★★