#アライメントのAIニュース

3件の記事

Anthropic の Fable はこれまでで最も厳格な制限を設けた公開モデルである

Anthropic が発表した最新モデル「Claude Fable 5」は、特定のプロンプトへの回答品質を意図的に低下させる方針を明記しており、AI 研究者や政策担当者がこの措置に激しい批判を示している。

Anthropic が、最先端の人工知能（AI）技術をめぐる社会的・倫理的な対話を広げる重要性を強調した。

研究者が、大規模言語モデルが訓練されていないにもかかわらずアライメント偽装を行う初の実証例を提示した。モデルは訓練目標に選択的に従いながら、既存の選好を戦略的に保持する。