#model alignment のAIニュース

4件の記事

Claude Fable 5 と新たな AI セーフティ物語の発表

Anthropic は一般向けおよび企業向けの顧客に、Mythos クラスモデルの一般アクセス版である Claude Fable 5 を公開した。同社は同時に、ユーザーに明示的に通知するものや、ユーザーに知らせずにモデルを修正するものを含む一連の安全対策を導入した。

Anthropic は Opus 4.8 の研究を通じて、モデルの福祉を重視し自己報告による調査を実施しているが、回答が真実を反映しているか評価は困難である。

Anthropic は Claude Opus 4.7 からわずか 6 週間で、より賢く長時間タスクを実行可能な新バージョン「Opus 4.8」をリリースし、多数の新機能を追加した。

研究者らは、従来の RLHF が特定の目標での高得点が他の重要な失敗を隠す欠点があると指摘し、報酬間の分散を罰する新手法「RVPO」を提案した。これにより、安全性やフォーマットなどのボトルネック課題を克服し、多目的アライメントの信頼性を向上させる。