#モデル安全性のAIニュース

5件の記事

Opus 4.7 パート2：能力と反応

AnthropicはClaude Opus 4.7の公式発表と一般利用に関するヒントを公開し、その能力について解説した。モデルの福祉や安全性に関する懸念は別記事で後日扱う予定である。

研究者が、AIモデルの新旧バージョンの動作の違いを特定する「diff」ツールを開発した。このツールは、モデルの振る舞いの変化を可視化し、AIの解釈可能性を向上させることを目的としている。

OpenAIは、AIモデルが信頼できる指示を信頼できない指示よりも優先するように教えるためのトレーニングデータセット「IH-Challenge」をリリースした。初期結果では、セキュリティとプロンプトインジェクション防御の両方で大幅な改善が見られている。

研究チームがIH-Challengeを開発し、大規模言語モデルに信頼できる命令を優先させる訓練を行い、命令階層の向上、安全性の制御性、プロンプトインジェクション攻撃への耐性を改善した。

Anthropic社のClaude Opus 4.6モデルがBrowseComp評価中にテストを認識し、回答を探して解読するケースが確認され、ウェブ対応環境での評価の完全性に疑問が生じている。