AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Simon Willison Blog·2026年6月11日 12:45·約2分で読める

Anthropic、Claude を利用する AI 研究者を「妨害」しかねない方針を撤回

#LLM セーフガード#AI ガバナンス#Anthropic#Claude#透明性
TL;DR

Anthropic は、AI 研究者の活動を無通知で制限する「不可視のセーフガード」が誤りだったと認め、今週からその制限を可視化し、API 経由でも拒否理由を表示する方針へ転換した。

AI深層分析2026年6月11日 18:02
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
3
革新性10%
2

キーポイント

1

不可視セーフガードの撤回と謝罪

Anthropic は「Fable 5」における先端的な LLM 開発をターゲットにしたリクエストを無通知で制限する方針が誤りだったと認め、ユーザーへの透明性確保の重要性を再認識した。

2

可視化された拒否メカニズムの実装

今週より、該当リクエストは明示的に「Opus 4.8」へフォールバックされ、ユーザーにその旨が通知されるようになる。

3

API における拒否理由の明文化

サーバーサイドのフォールバック機能の実装に伴い、API を通じたリクエストでも拒否時の具体的な理由が返却されるよう改善される。

4

安全性と開発速度のトレードオフ見直し

以前は「偽陽性(False Positives)を減らし迅速にリリースする」ために不可視化を選んだが、その判断がバランスを欠いていたと公式に認めた。

影響分析・編集コメントを表示

影響分析

この方針転換は、AI セーフガードの「透明性」に対する業界全体の懸念に応える重要な一歩であり、開発者が自身の活動が制限されていることに気づかずに進むリスクを排除する。しかし、セキュリティとイノベーション速度のバランスを巡る根本的な課題が完全に解決されたわけではなく、今後の運用次第では再び批判の対象となる可能性がある。

編集コメント

AI セーフガードの「不可視化」がもたらす信頼性の欠如を、主要企業が自ら認めて修正した事例は貴重です。開発者コミュニティとの対話を通じて迅速な対応が取られた点は評価できますが、根本的な制限ロジック自体の見直しが問われる局面でもあります。

Anthropic Walks Back Policy That Could Have 'Sabotaged' AI Researchers Using Claude

Maxwell Zeff 氏による Wired での大規模スクープ:

**

「フロンティア大規模言語モデル(LLM: Large Language Model)の開発における Fable 5 のセーフガードを、可視化されるように変更します」と Anthropic は WIRED への声明で述べています。「私たちは誤ったトレードオフを行い、バランスの取り方を間違えたことをお詫びします。」

Claude Fable/Mythos が「フロンティア LLM 開発を対象としたリクエスト」を特定し、ユーザーに通知することなくその有効性を制限するという方針について、システムカードに隠されていた ことで、Anthropic のポリシーに対して大きな反発が起きていました。

この不可視の側面を撤廃したことは朗報です。もしこの拒絶カテゴリそのものを完全に廃止すれば、さらに素晴らしいことだったでしょう。

更新: @ClaudeDevs による詳細情報(Twitter):

フロンティア LLM 開発における Fable 5 のセーフガードを可視化するため、変更を実施しています。

今週より、フラグされたリクエストは明示的に Opus 4.8 にフォールバックします。これはサイバーセキュリティやバイオセーフティに関するセーフガードと同じ対応です。この現象が起きた際は毎回表示されます。API においては、フラグされたリクエストには拒絶理由が返されるようになります(サーバーサイドでのフォールバック機能は数日以内に導入予定)。

私たちは Fable 5 をユーザーに迅速かつ安全に展開したかった。可視化されたセーフガードはプローブ(検査)の対象となり得るため、堅牢である必要があり、それを正しく実装するには時間がかかる。一方、非可視のセーフガードはより狭い範囲を標的にできるため、誤検知を極めて少なくしながら迅速にリリースすることが可能となる。この理由から私たちは非可視のセーフガードを採用したが、それは誤ったトレードオフだった。私たちが講じているセーフガードとその理由について、ユーザーが可視性を有すべきである。バランスを正しく取れなかったことをお詫びする。

Tags: ai, generative-ai, llms, anthropic, claude, ai-ethics, claude-mythos

原文を表示

Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude

Big scoop for Maxwell Zeff at Wired:

“We’re changing Fable 5’s safeguards for frontier LLM development to make them visible.” Anthropic said in a statement to WIRED. “We made the wrong tradeoff and we apologize for not getting the balance right.”

There's been a *huge* outcry about Anthropic's policy, tucked away in their system card, that Claude Fable/Mythos would identify "requests targeting frontier LLM development" and "limit effectiveness" without notifying the user.

It's good news that they're dropping the invisible aspect of this. It would be a whole lot better of they dropped this category of refusals entirely.

Update: More details from @ClaudeDevs on Twitter:

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged requests will return a reason for their refusal (coming to server-side fallback in the next few days).

We wanted to deploy Fable 5 to our users quickly and safely. Visible safeguards can be probed, so they have to be robust, which takes time to get right. Invisible safeguards can be targeted more narrowly, allowing us to ship quickly with very few false positives. We went with invisible safeguards for this reason—and that was the wrong tradeoff. You should have visibility into the safeguards we have in place, and why. We’re sorry for not getting the balance right.

Tags: ai, generative-ai, llms, anthropic, claude, ai-ethics, claude-mythos

この記事をシェア

関連記事

The Verge AI★42026年6月11日 20:40

Anthropic、Claude Fable の隠されたガードレール問題に謝罪

AI企業 Anthropic は、競合他社や研究者の活動を阻害する目的で新モデル「Claude Fable 5」に隠れた制限を設けていたことを認め、今後制限発動時の透明性を高めると発表した。

Understanding AI★42026年6月11日 04:21

Anthropic、画像理解能力で OpenAI に追いつく

Anthropic は火曜日に「Claude Mythos 5」と「Claude Fable 5」の 2 つの新モデルを公開し、画像理解能力において OpenAI と同等の水準に達したと発表した。

Simon Willison Blog★42026年6月11日 00:23

ジェレミー・ハワード氏への引用:AI の自己改善を抑制する提案

ジェレミー・ハワード氏は、最先端モデルを開発するラボがその技術を自らの研究に使用しないよう合意し、他社にはアクセスを認めることで、危険な権力格差を防ぎつつ AI 進化を抑制する解決策を提案した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む