Anthropic apologizes for invisible Claude Fable guardrails｜Anthropic、Claude Fable の隠されたガードレール問題に謝罪 | AIニュース最前線

ロバート・ハート は、AI とその関連事項全般を取材するロンドン拠点の『The Verge』記者であり、シニア・タッベルフェローです。以前は、『Forbes』で健康、科学、技術について執筆していました。 Anthropic は、研究者や競合システムを開発するためにそれを利用する他社にとって有害となる隠されたガードレール（安全装置）を備えた、その新 AI モデル「Claude Fable 5」をこっそりと制限していたことについて謝罪しました。同社は方針を転換し、制限が作動するタイミングについてより透明性を高める方針を示しています。ただし、それによって Claude Fable がより多くの問い合わせに応じられなくなる可能性もあります。 Claude Fable は、Anthropic の Mythos クラスに属する AI システム群の中で初めて広く利用可能になったモデルです。同社は数か月にわたり、このグループが [一般公開するには危険すぎる](https://www.theverge.com/ai-artificial-intelligence/917644/anthropic-claude-mythos-breach-humiliation) と警告してきました。Anthropic は、Claude Fable を「高リスク」の問い合わせに対して応答しないよう防止する安全装置を備えてリリースすることで、これらのリスクの一部に対処したと述べています。Anthropic が Claude Fable の応答を制限すると明言している分野の一つに、蒸留（ディスティレーション）があります。これは、大規模な AI モデルの出力を用いて小規模な AI モデルを訓練する手法です。 Fable のシステムカード（AI 開発者がシステムの仕組みを説明するために公開する文書）において、Anthropic は、蒸留試行と判断されるクエリに対してはモデルの回答を直接改変・劣化させることで対応すると明言していました。ユーザーには安全対策が作動したことが通知されず、回答が変更されたことも伝えられませんでした。 Anthropic は X での投稿で、蒸留に対するアプローチを変更すると発表しました。今後はクエリは Anthropic の前世代フラッグシップモデルである Claude Opus 4.8 にフォールバックされます。また、Anthropic はユーザーに対して明確に通知する方針です：「この措置が発動されるたびに、あなたはこれを目にするようになります」。 これは Fable が生物学、化学、サイバーセキュリティといった他の高リスク領域でクエリを処理する方法と類似しています。これらの分野で安全機能が作動した場合、クエリは Opus 4.8 を経由して処理されます。

Anthropic、Claude Fable の隠されたガードレール問題に謝罪

背景や根拠まで確認しますか？

関連記事