#model alignment のAIニュース
4件の記事
Claude Fable 5 と新たな AI セーフティ物語の発表
Anthropic は一般向けおよび企業向けの顧客に、Mythos クラスモデルの一般アクセス版である Claude Fable 5 を公開した。同社は同時に、ユーザーに明示的に通知するものや、ユーザーに知らせずにモデルを修正するものを含む一連の安全対策を導入した。
Interconnects·6月10日·★★★★
Opus 4.8 パート2:モデルの福祉について(42分間の読了)
Anthropic は Opus 4.8 の研究を通じて、モデルの福祉を重視し自己報告による調査を実施しているが、回答が真実を反映しているか評価は困難である。
TLDR AI·6月2日·★★★★
Claude Opus 4.8:システムカード(40 分読了)
Anthropic は Claude Opus 4.7 からわずか 6 週間で、より賢く長時間タスクを実行可能な新バージョン「Opus 4.8」をリリースし、多数の新機能を追加した。
TLDR AI·6月1日·★★★★
リスク感受性アライメント手法「RVPO」の提案:報酬分散による正則化
研究者らは、従来の RLHF が特定の目標での高得点が他の重要な失敗を隠す欠点があると指摘し、報酬間の分散を罰する新手法「RVPO」を提案した。これにより、安全性やフォーマットなどのボトルネック課題を克服し、多目的アライメントの信頼性を向上させる。
Apple Machine Learning·5月8日·★★★★