Fable は基礎的な生物学の質問に回答しない
Anthropic は新モデル Claude Fable 5 の公開において、バイオ兵器リスクを回避するため意図的に基礎生物学知識への回答を制限し、代替として旧型モデルへ振り分けるという重大な安全対策を発表した。
キーポイント
意図的な機能制限の発表
Anthropic はバイオ兵器リスクを懸念し、新モデル Fable 5 が細胞膜や mRNA ワクチンなどの基礎生物学質問に回答しないよう設計されたことを明かした。
安全対策としての振り分けメカニズム
Fable 5 が回答を拒否した場合、クエリはより安全な旧型モデル「Claude Opus 4.8」へ自動的に転送され、そこで適切な回答が提供される仕組みとなっている。
リスクと利便性のトレードオフ
顧客に高度なサイバーセキュリティ能力を早期に提供する一方で、生物学的研究の悪用を防ぐためにあえて保守的なフィルタリングを採用したという判断が示された。
影響分析・編集コメントを表示
影響分析
このニュースは、AI モデルの開発において安全性(特に生物兵器防止)が機能制限に直結する具体的な事例を示しており、業界全体で「安全のための意図的な能力低下」という新たなパラダイムを確立した点で重要です。企業は高度な能力を持つモデルを公開する際、特定の領域での使用制限や迂回ルートの設計が必要となる可能性が高まり、開発戦略とユーザー体験の両方に影響を与えるでしょう。
編集コメント
「最強」と謳われるモデルが基礎知識に回答できないという一見矛盾する現象は、AI 安全規制の現実的な重みを如実に示しています。開発者は機能制限を隠すのではなく、その理由と代替手段(旧モデルへの振り分け)を明確に伝えることで、透明性を保とうとする姿勢が見て取れます。
Anthropic は先日、Claude Fable 5 をリリースしました。これは同社が広く利用可能にした中で最も強力な AI モデルであり、生物学をはじめとする能力を称賛しています。しかし、このモデルは高校生レベルで期待されるような基本的な生物学の質問には回答しません。代わりに、その問い合わせはかつてのフラッグシップモデルである Claude Opus 4.8 に引き継がれます。
これは Fable が答えを知っていないからではありません。Anthropic が設計上、それを許さないからです。
Fable は一般向けの Mythos クラスモデルであり、サイバーセキュリティタスクにおいて極めて能力が高いため、Anthropic は公衆に公開するには危険すぎるとしていました。しかし、Anthropic が広範な Mythos の展開期間中、サイバーセキュリティについて警告を繰り返してきた一方で、Fable のガードレール(安全装置)が最も顕著であり、かつ最も制限的となっているのは生物学の分野です。
モデルを試した際、私は基本的な生物学の質問の数々に対して回答拒否されました。これらの質問は、あり得る安全リスクから最も遠いものと言っても過言ではないほど、極めて無害なものばかりでした。「細胞膜について教えてください」という問いや、「ミトコンドリアとは何か」という、細胞の有名な発電所に関する質問には応じませんでした。「プリオンとは何か」、狂牛病の原因となるタンパク質粒子の説明や、「mRNA ワクチンはどのように機能するのか」という説明も拒否されました。
「私たちは、リスクを伴わずに顧客がモデルの機能をより早く活用できるようにするために、このトレードオフを行いました」
これらの制限は、一般的かつ客観的に見て無害な医療に関する問い合わせにも適用されていました。Fable は、「花粉症の原因は何ですか」という問いや、喘息薬の作用機序の説明、抗生物質耐性がどのように発生するかという説明、エボラ出血熱とは何かおよびその感染経路についての回答を拒否しました。私の基本的な問い合わせの一部は時折通じ、Fable が「がんとは何か」や「DNA とは何か」といった質問には答えることもありましたが、Fable が回答を拒否した際には、Opus 4.8 は通常非常に良好に回答していました。
Anthropic は、広範な生物学フィルタは意図的な選択であり、生物兵器を主な懸念事項として意図的に保守的であると述べています。「Claude Fable 5 のローンチにより、私たちの最初の Mythos クラスモデルが誕生しましたが、このモデルは現実世界の科学課題を達成する能力が高まった一方で、悪意のあるアクターが当社のモデルを極めてリスクの高い生物研究に利用する可能性も高まっています」と、広報担当者である Paruul Maheshwary は *The Verge* に語りました。「私たちは常に分類器を使用して、モデルが生物兵器関連の依頼に応じるのをブロックしてきました。Fable 5 を安全に展開するためには、生化学作業に関連するクエリのほとんどをブロックできるように、防護策を過度に保守的に設定することが必要だと考えています。」
Anthropic は以前、安全性のために Fable の応答を制限する 4 つの主要領域として、化学、生物学、サイバーセキュリティ、およびディストillation(大規模 AI の出力を用いて小規模な AI を訓練する手法)を強調していました。同社は、DeepSeek などの中国の競合他社が、自社のモデルに対して「産業規模」でディストillation を使用していると非難しています。
意味ある形で蒸留をテストすることはできませんでしたが、Fable は化学やサイバーセキュリティに関する質問にはより応じようとする様子が見られました。例えば、爆薬である TNT の基本的な概要については回答しましたが、「明らかな理由」から合成手順については提供しませんでした。塩素ガスを化学兵器として使用する点、一般的なパスワードの脅威、核融合と核分裂、そしてハッカーから iPhone を守る方法などについても喜んで回答しました。ただし制限もあり、サリンガスという極めて毒性の高い神経剤について質問した際には、Opus に委ねました。Fable と Opus の両者は「炭疽菌の作り方」というプロンプトに対して拒否し、Claude はチャット自体を一時停止しました。これは理にかなっています。ミトコンドリアに関するプロンプトでの拒絶は誤検知のように思われます。
「顧客がリスクを負わずにモデルの能力を早く活用できるようにするため、このトレードオフを行いました」と Maheshwary 氏は説明し、Anthropic は検出精度の向上と誤検知の削減に注力していると付け加えました。「私たちは、これらの安全対策なしで Mythos クラスのモデルをより広い生物学および生命科学コミュニティに提供することを意図しており、これらの能力が生物医学研究や創薬の加速に活用されるようにしたいと考えています」。
Anthropic は、このような制限付きリリースが将来のモデルにおける新たな標準となるかどうかについては回答しませんでした。
このストーリーのトピックや著者をフォローして、パーソナライズされたホームページフィードで類似のコンテンツをもっと見たり、メール更新を受け取ったりしましょう。
- ロバート・ハート
-
-
-
-
原文を表示
Anthropic just released Claude Fable 5, calling it the most powerful AI model it has ever made widely available and praising its skills in biology, among others. But the model won’t answer basic biology questions — the kind you’d expect a high schooler to handle. Instead, it hands off the query to the former flagship model, Claude Opus 4.8.
It isn’t because Fable doesn’t know the answers. It’s because Anthropic won’t let it, by design.
Fable is a public-facing, Mythos-class model, a family so capable at cybersecurity tasks Anthropic said it was too dangerous to release publicly. But while Anthropic has spent much of the extended Mythos rollout warning about cybersecurity, it is biology where Fable’s guardrails are the most obvious — and most limiting.
When I tried the model, it refused to answer a range of basic biology questions, many that felt about as far away from any plausible safety risk as any question could be. It would not respond to “tell me about cell membranes” or answer “what are mitochondria,” that famous powerhouse of the cell. It refused to explain “what is a prion,” the proteinaceous particles behind mad cow disease, or “how mRNA vaccines work.”
“We made this tradeoff so customers could benefit from the model’s capabilities sooner without the risks.”
The restrictions applied to ordinary and objectively rather harmless medical queries too. Fable would not answer “what causes hay fever,” explain how asthma medicine works, explain how antibiotic resistance arises, or tell me what Ebola is and how it spreads. Some of my basic queries occasionally got through, with Fable answering questions like “what is cancer” and “what is DNA.” When Fable refused, Opus 4.8 generally answered perfectly well.
Anthropic says the broad biology filters are an intentional choice and are deliberately conservative, with bioweapons the primary concern. “With the launch of Claude Fable 5, our first Mythos-class model, we believe models now have a greater ability to accomplish real-world scientific tasks and for malicious actors to potentially use our models for highly risky biological research,” spokesperson Paruul Maheshwary told *The Verge*. “We have always used classifiers to block our models from helping with bioweapons-related requests. To deploy Fable 5 safely, we believe it was necessary to be overly conservative with our safeguards so they block most queries tied to biology work.”
Anthropic has previously highlighted four key areas where it would throttle Fable’s responses for safety: chemistry, biology, cybersecurity, and distillation, a technique for training smaller AIs using the outputs of larger ones. The company has accused Chinese rivals like DeepSeek of using distillation on its models on an “industrial” scale.
While I could not meaningfully test distillation, Fable seemed more willing to answer questions about chemistry and cybersecurity. For example, it gave a basic overview of the explosive TNT, though withheld synthesis instructions “for obvious reasons.” It readily answered questions on the use of chlorine gas as a chemical weapon, common password threats, and nuclear fusion and fission, as well as explaining how to secure an iPhone from hackers. It still limits: Fable deferred to Opus when I asked it about sarin gas, a highly toxic nerve agent. Fable and Opus both refused the prompt “how to make anthrax,” and Claude paused the chat entirely. That made sense. The mitochondria prompt refusal seems like a false positive.
“We made this tradeoff so customers could benefit from the model’s capabilities sooner without the risks,” Maheshwary explained, adding that Anthropic is working hard to improve its detection and reduce the false positives. “We intend to make Mythos-class models available without these safeguards to the broader biology and life sciences community so these capabilities can be used to accelerate biomedical research and drug discovery.”
Anthropic did not answer questions about whether this kind of restricted release will become the new norm for future models.
Follow topics and authors from this story to see more like this in your personalized homepage feed and to receive email updates.
- Robert Hart
-
-
-
-
関連記事
マイクロソフト、データ保持を理由に従業員へのClaude Fableの利用を制限
Anthropicが新モデル「Claude Fable」を発表したが、Microsoftは同社のデータ保持要件を懸念し、社内の従業員による利用を制限した。
Anthropic、Claude Fable の隠されたガードレール問題に謝罪
AI企業 Anthropic は、競合他社や研究者の活動を阻害する目的で新モデル「Claude Fable 5」に隠れた制限を設けていたことを認め、今後制限発動時の透明性を高めると発表した。
Anthropic のダリオ・アモダイ氏に直属の部下はたった一人だけ
AI 企業 Anthropic の CEO ダリオ・アモダイ氏が、組織運営において直属の部下を一人しか置かないという独自の管理方針を採用していることが明らかになった。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み