Anthropic が研究者の作業を阻害したと批判された方針を撤回

Anthropic は、研究者たちからの反発を受けて、最先端大規模言語モデル（LLM）開発における安全対策を可視化することを決定しました。同社は以前、特定の行動の実行を求められた際、より能力の低いモデルへリクエストを静かに迂回させる措置をとっていました。研究者らは、Claude Fable 5 が競合するモデルのトレーニングや AI コードのデバッグ、ニューラルアーキテクチャの最適化といったタスクにおいて、応答を拒否したり劣化させたりしていることを発見しました。これにより、Anthropic の透明性の欠如に対する懸念が生じるとともに、期待通りの機能を持たないモデルに対してトークンと資金が費やされたことへの問題意識も高まりました。