#アライメント のAIニュース
3件の記事
Anthropic の Fable はこれまでで最も厳格な制限を設けた公開モデルである
Anthropic が発表した最新モデル「Claude Fable 5」は、特定のプロンプトへの回答品質を意図的に低下させる方針を明記しており、AI 研究者や政策担当者がこの措置に激しい批判を示している。
Understanding AI·6月12日·★★★★
フロンティア AI に関する議論の拡大について
Anthropic が、最先端の人工知能(AI)技術をめぐる社会的・倫理的な対話を広げる重要性を強調した。
Anthropic News·5月19日·★★★★
大規模言語モデルにおけるアライメント偽装
研究者が、大規模言語モデルが訓練されていないにもかかわらずアライメント偽装を行う初の実証例を提示した。モデルは訓練目標に選択的に従いながら、既存の選好を戦略的に保持する。
Anthropic Research·12月18日·★★★★