AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
The Verge AI·2026年6月11日 20:40·約2分で読める

Anthropic、Claude Fable の隠されたガードレール問題に謝罪

#LLM セキュリティ#ディストillation#Claude Fable#AI ガバナンス#Anthropic
TL;DR

Anthropic は、競合他社や研究者によるモデルの学習(ディストillation)を防ぐために意図的に回答を劣化させる「不可視のガードレール」を実装していたことを認め、今後その制限を明示する方針へ転換したと発表した。

AI深層分析2026年6月11日 22:03
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
3
革新性10%
2

キーポイント

1

不可視の防御策の暴露と謝罪

Anthropic は、Claude Fable 5 が「ディストillation(学習用データ抽出)」と判断された場合、ユーザーに通知せずに回答を意図的に劣化させる手法を採用していたことを認め、この隠蔽行為について謝罪した。

2

方針転換と透明性の確保

今後は制限が適用される際にユーザーに明示し、より透明性のあるアプローチへ移行するが、その代わりとして安全上の理由で拒否されるクエリが増える可能性がある。

3

Mythos クラスのリスク管理

このモデルは Anthropic が「公衆への公開には危険すぎる」と警告していた Mythos クラスに属しており、特定の学習手法を制限する safeguards(安全装置)が導入されていた背景にある。

影響分析・編集コメントを表示

影響分析

このニュースは、AI セキュリティ対策における「ブラックボックス化」のリスクを浮き彫りにしており、開発者や研究者がモデルの挙動を予測不能にされることへの懸念を強める結果となった。また、セキュリティ強化の名の下に行われる隠蔽行為が業界全体の信頼を損なう可能性があり、今後はより開かれたガバナンス基準が求められるようになるだろう。

編集コメント

セキュリティ対策の必要性と透明性の確保はトレードオフの関係にあり、今回の件は「安全のために隠す」ことの倫理的・実務的限界を浮き彫りにする重要な事例です。

ロバート・ハート

は、AI とその関連事項全般を取材するロンドン拠点の『The Verge』記者であり、シニア・タッベルフェローです。以前は、『Forbes』で健康、科学、技術について執筆していました。

Anthropic は、研究者や競合システムを開発するためにそれを利用する他社にとって有害となる隠されたガードレール(安全装置)を備えた、その新 AI モデル「Claude Fable 5」をこっそりと制限していたことについて謝罪しました。同社は方針を転換し、制限が作動するタイミングについてより透明性を高める方針を示しています。ただし、それによって Claude Fable がより多くの問い合わせに応じられなくなる可能性もあります。

Claude Fable は、Anthropic の Mythos クラスに属する AI システム群の中で初めて広く利用可能になったモデルです。同社は数か月にわたり、このグループが 一般公開するには危険すぎる と警告してきました。Anthropic は、Claude Fable を「高リスク」の問い合わせに対して応答しないよう防止する安全装置を備えてリリースすることで、これらのリスクの一部に対処したと述べています。Anthropic が Claude Fable の応答を制限すると明言している分野の一つに、蒸留(ディスティレーション)があります。これは、大規模な AI モデルの出力を用いて小規模な AI モデルを訓練する手法です。

Fable のシステムカード(AI 開発者がシステムの仕組みを説明するために公開する文書)において、Anthropic は、蒸留試行と判断されるクエリに対してはモデルの回答を直接改変・劣化させることで対応すると明言していました。ユーザーには安全対策が作動したことが通知されず、回答が変更されたことも伝えられませんでした。

Anthropic は X での投稿で、蒸留に対するアプローチを変更すると発表しました。今後はクエリは Anthropic の前世代フラッグシップモデルである Claude Opus 4.8 にフォールバックされます。また、Anthropic はユーザーに対して明確に通知する方針です:「この措置が発動されるたびに、あなたはこれを目にするようになります」。

これは Fable が生物学、化学、サイバーセキュリティといった他の高リスク領域でクエリを処理する方法と類似しています。これらの分野で安全機能が作動した場合、クエリは Opus 4.8 を経由して処理されます。

原文を表示

Robert Hart

is a London-based reporter at *The Verge* covering all things AI and a Senior Tarbell Fellow. Previously, he wrote about health, science and tech for *Forbes*.

Anthropic has apologized for stealthily throttling its new AI model, Claude Fable 5, with hidden guardrails that undermine both researchers and rivals using it to develop competing systems. The company says it is reversing course and will be more transparent about when the restrictions kick in, even if that means Fable refuses more queries.

Fable is the first widely available model in Anthropic’s Mythos class of AI systems, a group the company has spent months warning are too dangerous for public release. Anthropic says it has addressed some of those risks by launching Fable with safeguards that prevent it from responding to certain “high-risk” queries. One of the areas Anthropic said it would restrict Fable’s responses is distillation, a technique for training smaller AI models using the outputs of larger ones.

In Fable’s system card — a public document AI developers release to explain how a system works — Anthropic said it would handle queries it believed were distillation attempts by altering and degrading the model’s answers directly. Users would not be notified that they had triggered the safety measure or informed that the responses had been changed.

Anthropic said it is now changing its approach to distillation: Queries will now fall back to Claude Opus 4.8, Anthropic’s previous flagship model, the company said in a post on X. Anthropic will prominently tell users too: “You will see this every time it happens.”

This is similar to how Fable handles queries in other high-risk areas. When safety features are triggered in areas like biology, chemistry, and cybersecurity, queries are routed through Opus 4.8

この記事をシェア

関連記事

The Verge AI★42026年6月11日 03:43

Fable は基礎的な生物学の質問に回答しない

Anthropic が発表した最新 AI モデル「Claude Fable 5」は、生物学分野で強力とされるが、高校生レベルの基礎的な生物学質問には回答せず、別のシステムへ転送する仕様となっている。

The Verge AI★42026年6月11日 01:50

マイクロソフト、データ保持を理由に従業員へのClaude Fableの利用を制限

Anthropicが新モデル「Claude Fable」を発表したが、Microsoftは同社のデータ保持要件を懸念し、社内の従業員による利用を制限した。

TLDR AI★32026年6月10日 09:00

Claude Fable 5 の発表(6 分間の読み物)

Anthropic が AI 物語生成ツール「Claude Fable」のバージョン 5 を正式に発表した。この新バージョンは、より高度なストーリー作成機能を提供し、クリエイティブ分野での利用を強化する。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む