Claude Fable 5 と新たな AI セーフティ物語の発表
Anthropic が一般向けに「Claude Fable 5」を発表し、業界をリードする性能を維持しつつ、ユーザーへの明示的告知なしのモデル内部改変を含む厳格な安全対策を導入したことは、AI 開発における安全性と制御のあり方に対する重要な警鐘となっている。
キーポイント
Claude Fable 5 の性能と価格設定
一般公開されているモデルの中で最も賢いと評価され、主要ベンチマークで劇的な進歩を遂げたが、価格は現在の Opus モデルの約 2 倍(GPT-5.5 Pro よりも安価)である。
不透明な安全対策の実装
ユーザーに明示的に告知される措置と、モデル内部で無通知で行われる改変が組み合わされ、一部のプロンプトが自動的に下位バージョン(Opus 4.8)にダウングレードされる仕組みがある。
安全性と制御の限界への警鐘
記事は、Anthropic のような狭義かつ自己完結的な安全・制御概念が、長期的には「教訓的な寓話」として機能し、必ずしも望ましい結果をもたらさない可能性を指摘している。
技術的ブレイクスルーの背景
推論時間のスケーリングや RL といった明確な単一ブレイクスルーではなく、スタック全体の進歩による成果であり、LLM のトレーニングに物理的な壁はないことが示唆されている。
ベンチマークと実用性の乖離
Anthropic はベンチマークスコアの大幅な向上よりも、実際の現場でのパフォーマンス向上を重視する戦略を採用しており、これは業界の新しい潮流となっている。
高度な安全分類器による自動フォールバック
サイバーセキュリティや生物学などの特定の分野では、Fable 5 の分類器がリスクを検知すると、より高能力な Claude Opus 4.8 に自動的に切り替えて応答する仕組みが導入された。
AI 労働者のワークフロー変革の正当化
このモデルの進化は、コード記述からエージェント活用へとシフトした AI 熟練労働者にとって、新しいワークフローの開発が必要であるという認識を裏付ける重要な証拠となっている。
影響分析・編集コメントを表示
影響分析
このニュースは、AI モデルの開発において「安全性」を名目としたアクセス制限や機能制限が、技術的な進歩そのものよりも優先されつつある現状を浮き彫りにしています。特に、ユーザーに明示されない形でモデルの挙動が変更される手法は、透明性と信頼性に対する新たな課題を生み、業界全体で安全基準と開発プロセスの見直しが迫られるきっかけとなるでしょう。
編集コメント
性能の飛躍的向上と引き換えに、安全性の名の下にユーザーが知らない間に機能制限がかかるという事実は、今後の AI ガバナンスにおいて極めて重要な議論を呼ぶでしょう。開発者の意図と利用者の期待のギャップが拡大する中、透明性の確保が急務です。
本日、Anthropic は消費者および企業向けに Claude Fable 5 モデルをリリースしました。これは同社の Mythos クラスモデルの一般アクセス版です。これに伴い、Anthropic は一連の安全対策を導入しました。ユーザーに対して明示的に告知されたものもあれば、ユーザーに知らせずにモデル自体を変更するものもあります。AI の能力における次の主要なステップが、より強硬な安全措置を伴って現れたことは、Anthropic が現在の優位性を保護し、あるいは固定化しようとする意図を示すものであるという点において、驚くべきことではないはずです。
Anthropic によって導入された適用に偏りのある安全ポリシーは、安全性や制御に関する狭義かつ自己成就的な概念がほとんど機能しないことを示す古典的な教訓物語として定着する軌道にあります。
世界で最も賢いモデル
安全対策の微妙な点に深入りする前に、まずこのモデルの品質を確認することが重要です。本日のモデルの質は、今日の stakes(賭け事)を浮き彫りにします。なぜなら、これらの安全機能は、現代の LLM(大規模言語モデル)ではかつてない形で、最先端 AI へのアクセスの形を意味あるものに変えているからです。第二に、この能力は本ストーリーがさらに加速することを示唆しています。再帰的自己改善はここからの進歩に対する適切なメンタルモデルではありませんが、Claude Fable 5 は、LLM のトレーニングにおいて即座に壁が存在しないことを非常に明確に示すはずです。
まず、Claude Fable 5 は一般公開されているモデルの中で間違いなく最も賢いモデルであり、今日のほぼすべての関連ベンチマークにおいて驚異的な飛躍を遂げています。その価格は現在の Opus モデルの約2倍ですが1、それでも GPT 5.5 Pro のバリアントよりも安価です。これだけでも、この分野における画期的な瞬間と言えます。ChatGPT 後の LLM ラスが数年経過した中で、モデルのバージョンがこれほど大きな能力向上を遂げることは驚くべきことです。このモデルに関連する明確なブレイクスルー(推論時のスケーリングや RL など)は見当たらず、公的な見解ではこれはスタック全体(もちろん、確実にはわかりません——文書化されていません)における進歩によって達成されたものと考えられています。これは主要な技術的達成であり、このモデルを構築した従業員たちはその仕事に非常に誇りを持つべきです。
このモデルはトレーニング完了後、2 ヶ月以上遅れて一般公開されました。AI エコノミーにおける競争環境を考慮すると、より賢いバージョンの開発はすでに順調に進んでいます。
続きまして、本モデルのベンチマーク結果は以下の通りです。

これらのスコアに付されたアスタリスク (*) は、一般ユーザーが得られるスコアとは必ずしも一致しないことを示しています。これは、現在のモデルに適用されている安全性フィルターにより、一部のプロンプトが Opus 4.8 に格下げされる可能性があるためです。
これは、モデルを実際に徹底的にテストしなくても、それが驚くべきツールであることが直感的に分かるようなベンチマークスコアの飛躍です。Anthropic は、特に OpenAI や Gemini と比較した場合、ベンチマークへの関心が最も少ない AI ラボとして知られていることを思い出してください。2025 年 6 月に私が述べたコメントを振り返ってみましょう:
これは業界にとって異なる道であり、私たちが慣れ親しんでいるのとは異なる形でのメッセージングが必要になります。今後のリリースは、Anthropic の Claude 4 のように、ベンチマークでの向上はわずかである一方、実世界における恩恵が大幅な一歩となるものが多くなるでしょう。これには、政策、評価、透明性に関する多くの含意も伴います。AI 批判者が「AI はもう機能していない」と主張するために評価の横ばいを機会と捉えるようになる中、進捗のペースが続いているかどうかを理解するには、はるかに繊細な視点が必要になります。
明らかに、進捗ダイナミクスの一部が変化しましたが、それはまた別の日の記事に譲りましょう。今年、私はベンチマークを信頼することがいかに難しいか(そして部分的にはベンチマーク自体が大きく動かないため)について、複数の投稿で新しいモデルについて書いてきました。全体として、これはおそらく二度と意味のあるコードを書き続けることはなく、エージェントを中心に新たなワークフローを開発する必要があると気づいた、AI に精通した労働者にとって大きな検証となります。
Interconnects AI は読者の支援によって成り立つ出版物です。購読をご検討ください。
より賢いモデルが新たな安全ゲームを生み出す
⟦CODE_0⟧
このリリースには、必要なデータ保持ポリシーや追加されたプロンプトフィルタなど、複数の安全性ツールに関連する要素が含まれています。この分析を通じて、これらの要素のうちどの部分が害を及ぼしているのか、また包括的なポリシーの中で単一の要素が不適切な配置となることでなぜ全体の安全性プロセスに致命的な影響を与えるのかについて、正確かつ明確であることが特に重要です。
サイバーセキュリティ、標的型モデルの蒸留、研究生物学における重点分野において、Anthropic はブログ投稿で新しい安全性分類器の詳細を説明しています:
Fable 5 には、不正使用(ジールブレイク試行を含む)を検出し、メインモデル(この場合は Fable 5)が応答しないようにする別個の AI システムである新しい一連の分類器が付属しています。私たちは以前からモデルに対して分類器を実行しており、Fable 5 の分類器はこの以前の取り組みを拡張し、さらにカバー範囲を広げたものです。
Fable の分類器がサイバーセキュリティ、生物学・化学、または蒸留に関連するリクエストを検出した場合、応答は自動的に Claude Opus 4.8 によって処理されます。この発生時にはユーザーに通知が行われます。Opus 4.8 はそれ自体も非常に能力の高いモデルであり、Fable から Opus にフォールバックした応答は、Fable からの outright な拒絶よりもはるかに優れた体験となります。初期データによると、Fable セッションの 95% 以上でフォールバックは一切発生していません。これらのセッションにおいては、Fable 5 のパフォーマンスは事実上 Mythos 5 と同等です。
ユーザーにトリガーされたことを明示的に伝える主要なサイバーセキュリティおよび生物学的安全性フィルターの例は、すでにオンライン上で普及し始めており、非常に敏感であることが示されています。これらはユーザーにとってフラストレーションを伴う経験となる可能性がありますが、Anthropic にはこれを行う権限が明確にあり、その実施は論理的にも一貫しています。
安全性に関する物語の有害な部分は、Claude Fable 5 および Claude Mythos 5 システムカード内の「フールド」の下に含まれています:
私たちはまた、フロンティア大規模言語モデル(LLM)の開発に関連するセーフガードを追加しました。2026 年 2 月のリスク報告書のセクション 6.1 で議論した通り、AI 開発の全体的なペースを加速させることによるリスクについて懸念を抱いていますが、これらのリスクの深刻さについては依然として不確実です。特に、私たちが当時記述したように、「他社の AI 開発者が、 ours が同様のリスクをもたらすような強力な AI システムを構築する際の速度を加速させること」—必ずしも同等のセーフガードを備えているわけではないという点—に懸念を抱いています。
最近のモデルが自己開発を加速できる能力を踏まえ、フロンティア LLM 開発を対象としたリクエスト(例えば、事前学習パイプラインの構築、分散トレーニングインフラストラクチャ、または ML アクセラレータ設計など)に対する Claude の有効性を制限する新たな介入措置を実装しました。競合モデルの開発に Claude を使用することはすでに利用規約違反ですが、この制限をセーフガードを通じて執行することで、これらの規約を最も意図的に違反しようとするアクターが加速することを回避しています。
サイバーセキュリティ、生物学、化学への介入や蒸留試行とは異なり、これらの安全対策はユーザーには表示されません。Fable 5 は別のモデルにフォールバックすることはありません。代わりに、プロンプトの修正、ステアリングベクトルの利用、またはパラメータ効率的ファインチューニング(PEFT)などの手法を通じて有効性を制限します。
Anthropic は、これが少数のユーザーに影響を与えることを文書化していますが、これは事実です。私は、数々のフロンティア研究所の外で AI の普及と理解を支援する少数のユーザーに焦点を当てています。これは、技術の継続的な安全性にとって不可欠なメカニズムです。
Anthropic は、AI 機能の普及が彼らにとって懸念事項であることを文書化していますが、その解決策としてユーザーを誤解させる行為を行っています。通知なしに自動的に知能が低下する AI モデルは、明確にアライメント(整合性)が取れていない AI です。この路線における次のステップとは — Anthropic が行ったわけではありませんが、彼らが行う可能性もあります — 、AI の使用が安全でないと判断された場合に、職場を静かに操作するモデルを持つことです。第二に、ここではサイバーセキュリティや生物学の場合よりも実装は複雑です — モデル自体または提示されるデータを修正するものであり、すべてユーザーへの通知なしに行われます。
これらの政策の二面性は非常に混乱を招き、安全性に関する政策への疑念を抱かせる強い矛盾を描いています。この「安全」対策は、競争上の地位を維持することにほかならないと提示されています。もしすべての安全政策が一つの形をとるならば、これははるかに説得力があり、知的に支持しやすくなるでしょう。
Anthropic は、特に中国のアクターからの蒸留攻撃に対する懸念について非常に声を上げています。彼らの主張は、事実や、なぜその行動を防止できないのかという文脈が十分に透明ではなく、完全に信頼できるものではありません。限られた情報にもかかわらず、広範な AI および DC コミュニティでは、上記の蒸留を理由に中国のモデル構築者に対する措置を取るべきかどうかについて真剣な議論が行われています。
蒸留に関する点において、私の仮説は、API 構築者がハッキングや脱獄を防ぐことが容易ではないのは、推論モデルが推論のトレースを出力しようとする性質が深く根付いているためであり、その行動を完全に修正すればモデルの知能が著しく低下するからです。これはいくつかの前提に基づいています:
中国の研究機関は、Anthropic の API の顧客として現れ、意図された入力 - 出力形式でトークンを支払っているだけではありません。中国の研究機関が、利用規約によって禁止されているにもかかわらず、意図された使用行動に対して支払いを行っている場合、私はこの政策行動を顕在化させているフロンティア研究機関に対する同情はあまり持ちません。
推論のトレースは、下流モデルに行動を植え付ける際に不釣り合いに効果的です。
主要なラボは、これらの脱獄(jailbreak)のパイプラインを修正するために非常に懸命に取り組んでいます。
したがって、私の論理的結論として、モデル企業は自社の知的財産を完全に保護するためには、経済的な立場を弱めざるを得ないでしょう。もしそうであるなら、Anthropic は透明性を保つことで AI 研究コミュニティからより多くの共感を得られるはずです。また、API の脱獄がどのようなものかについて私のオッカムの剃刀による説明に頼るのではなく、情報に基づいた政策議論を行うことがはるかに容易になるでしょう。
これらのセーフガードを構築することは、Anthropic が単独で行うべきことではありません。安全性の研究は、ラボ間および公的研究活動全体における共通の理解と情報共有の上に築かれるべきです。
もし正確な安全手順が企業の最優先事項であり、リーダーシップにとって真に譲れない条件であったなら、彼らは重点分野の一つであるフロンティア AI 訓練において、実装が不明確なセーフティフィルターを備えたモデルのリリースを許可しなかったはずです。私は尋ねます——なぜ AI 研究リクエストを格下げするための分類器がないのでしょうか?これは、透明性があり合理的な安全政策と、静かに展開された市場浸透戦術の混在です。
私は個人的に、世界最高峰の AI モデルを、私が社会にとって非常に強力な AI システムへの移行が円滑に進むようにすることを情熱的に目指して構築した専門分野で信頼することはできません。これは必然的に、Anthropic の経営陣による優越性の宣言のように感じられるでしょう。
共有する
制御問題とオープンソースこそが唯一の答え
Anthropic が行っているすべての行動、つまり中国の中小企業に対する蒸留(distillation)への言及も、彼らの権利の範囲内です。実際、多くの人が、主要なフロンティアモデルはユーザーから排除され、ラボが知的財産を保護するようになることをすでに予想していました。今日の措置は、AI は常にエコシステムであり、主要企業と他のプレイヤー間の「私たち対彼ら」というダイナミクスを構築することは構造的に不安定であるという大きな絵を見落としています。
覚えておいてください、これは AI エコシステムにおいて、AI リーダーに対する暴力の最初の兆候が見られ始めた時期です。そして私は多くの人から、これが沈静化しないだろうと聞いています。これを防ぐためにどのようにより深く関与すればよいかを知りたいと願っていますが、私は非営利セクターで、AI をより広い利害関係者に独立して代表できる人物として自分自身を見出しています。
Anthropic のリーダーシップは、AI に関する狭い視点に固執した世界観を持っているために、ここでの何かが誤読され、あるいは少なくとも誤解されていると感じています。今日私が強く感じたのは、義務感と混乱でした。私は Anthropic と対立する必要はないと考えていますが、彼らは中国に対して不必要なほど敵対的であり、次にはオープンウェイトモデルに対して、そして今やより広範にオープン AI 研究に対してさえ、あまり手加減なく敵対的な態度をとっています。
Anthropic には独自の AI に対する見解があることは理解していますが、そのような強力な技術が最終的に単一の民間企業による独占管理という均衡状態になることはありません。Anthropic は今年初めに国防総省との争いを通じてこれを示しました——これは長期的な均衡において、政府が AI を自分たちで制御するか、あるいはオープンにするかのいずれかを望むことを示唆しています。このことから、私はオープンなエコシステムの方がはるかに安全な結果であると確信しています。
これらの出来事の多くは、Anthropic のリーダーシップに、これらの課題をスピードランのように処理し、既存の権力構造と正面からぶつかる文化があるように感じさせます。これは、AI エコシステムにおいて非常に必要のない時期に、大きな不確実性を追加することになります。
集約的に、先週は米国における新たなオープンソース生態系のための主要な結集点と見なすことができる。Nvidia は先週、初のフラッグシップモデルである「Nemotron 3 Ultra」をリリースし、Anthropic のこれらの行動は、オープンモデルを構築する私の同業者たちの間で、信頼できる、修正可能で、制御可能な知能が必要だという、一致した動機と懸念を鼓舞した。
米国のオープンソース生態系はその足場を確立しており、自らが直接脅かす企業の手から、そのリーダーシップのために戦うべき理由を次々と与えられ続けている。これがこの寓話の教訓である。
1Fable は、入力トークン 100 万あたり 10 ドル、出力トークン 100 万あたり 50 ドルである。
2これは不完全な指標であるオリジナルの「Mythos」ロールアウトに基づいている。
3Fable は私に、これらが異なるメカニズムであることを確認させた。
原文を表示
Today, Anthropic released their Claude Fable 5 model to consumer and enterprise audiences. This is the general-access variant of their Mythos-class models. With it, Anthropic rolled out a series of safety measures — some explicitly called out to users and some modifying the model without telling the user. It should be less surprising than it is that the next major step in AI capabilities came with heavier-handed safety measures indicating Anthropic’s intention to protect, or entrench, their current lead.
The unevenly applied safety policies that Anthropic have rolled out are on track to become a classic cautionary fable in how narrow and self-fulfilling notions of safety and control rarely work out.
The smartest model in the world
Before digging into the nuance of the safety facts, it is important to establish the quality of this model. The quality of the model paints the stakes of today — as these safety features are meaningfully changing the shape of access to frontier AI, something which has never happened with the modern LLMs we know. Second, the capabilities point to this story only accelerating. Recursive self-improvement isn’t quite the right mental model of progress from here, but Claude Fable 5 should make it very clear that there are no immediate walls in training LLMs.
To start — Claude Fable 5 is definitely the smartest model available to the general public — a remarkable leap on pretty much every relevant benchmark of the day — at only 2X the price of current Opus models1 (which is still less than GPT 5.5 Pro’s variant). This alone is a seminal moment for the field. To have a model iteration take such a substantial step in capabilities, a few years into the post-ChatGPT LLM race, is astounding. There’s no clear breakthrough associated with this model, such as inference-time scaling or RL, and public wisdom is that this is achieved by advances across the whole stack (of course, we can’t know for sure — it’s not documented). This is a major technical achievement and the employees who built the model should be very proud of their work.
This model was delayed 2+ months after it was done training before it was publicly available2. Given the competitive dynamics of the AI economy, the smarter version of this model is already well underway.
To continue, the benchmarks for the model are below.

An asterisk on these scores is that these aren’t necessarily the scores that the public will get, as some of the prompts will be downgraded to Opus 4.8 with the current safety filters on the model.
This is the type of jump in benchmark scores where I don’t even need to substantially test the model to know it’s an incredible tool. Remember that Anthropic is also the AI lab with the track record of caring the least about benchmarks (in particular, when compared to OpenAI and Gemini). Recall a comment I made in June of 2025:
This is a different path for the industry and will take a different form of messaging than we’re used to. More releases are going to look like Anthropic’s Claude 4, where the benchmark gains are minor and the real world gains are a big step. There are plenty of more implications for policy, evaluation, and transparency that come with this. It is going to take much more nuance to understand if the pace of progress is continuing, especially as critics of AI are going to seize the opportunity of evaluations flatlining to say that AI is no longer working.
Clearly, a few pieces of the progress dynamics have changed, but that’s a post for another day. I’ve written multiple posts about new models this year specifically in how it’s hard to trust benchmarks (and partially because the benchmarks don’t move that much). Altogether, this is a major validation for AI-savvy workers who realized they’re likely never going to write meaningful code again and need to develop new workflows around agents.
Interconnects AI is a reader-supported publication. Consider becoming a subscriber.
Smarter models spawn new safety games
There are multiple pieces of safety tooling associated with this release, including but not limited to required data-retention policies and added prompt filters. Through this analysis it is particularly important to be precise and clear as to which pieces of these are causing harm, and why single elements being out of place in an otherwise comprehensive policy are so damning for the overall safety process.
For their focus areas of cybersecurity, targeted model distillation, and research biology, Anthropic details new safety classifiers in their blog post:
Fable 5 comes with a new set of classifiers: separate AI systems that detect potential misuse, including jailbreak attempts, and prevent the main model (in this case Fable 5) from responding. We’ve been running classifiers on our models for some time, and Fable 5’s classifiers are an extension of this previous work with extra coverage.
When Fable’s classifiers detect a request related to cybersecurity, biology and chemistry, or distillation, the response is automatically handled by Claude Opus 4.8 instead. Users will be informed whenever this occurs. Opus 4.8 is a highly capable model in its own right: a response that falls back to Opus is a far better experience than an outright refusal from Fable. Our early data shows that more than 95% of Fable sessions involve no fallback at all—for those sessions, Fable 5’s performance is effectively the same as that of Mythos 5.
Examples of the primary cybersecurity and biology safety filters — which tell the users explicitly when they’re triggered — are already proliferating online and appear quite sensitive. These can be a frustrating experience for users, but Anthropic is definitely within its power to do this and intellectually consistent for doing so.
The damaging part of the safety story falls under the fold in the Claude Fable 5 & Claude Mythos 5 System Card:
We have also added safeguards related to frontier LLM development. As discussed in Section 6.1 of our February 2026 Risk Report, we are concerned about the risks of accelerating the overall pace of AI development, though we remain uncertain about the severity of these risks. In particular, our concern is with—as we wrote then—“accelerating other AI developers in building powerful AI systems that pose similar risks to the ones ours pose - without necessarily having commensurate safeguards.”
In light of the ability of recent models to accelerate their own development, we’ve implemented new interventions that limit Claude’s effectiveness for requests targeting frontier LLM development (for example, on building pretraining pipelines, distributed training infrastructure, or ML accelerator design). Using Claude to develop competing models already violates our Terms of Service, but enforcing this restriction through our safeguards avoids accelerating the actors most willing to violate these terms.
Unlike our interventions for cybersecurity, biology and chemistry, and distillation attempts, these safeguards will not be visible to the user. Fable 5 will not fall back to a different model. Instead, the safeguards will limit effectiveness through methods such as prompt modification, steering vectors, or parameter-efficient fine-tuning (PEFT).
Anthropic documents on how this will impact a small percentage of users, which is true. I focus on the small amount of users supporting AI’s diffusion and understanding outside of the few frontier labs, as a crucial mechanism for the continued safety of the technology.
Anthropic is documenting how the proliferation of AI capabilities is a concern to them, but they are solving it by misleading their users. An AI model that gets less intelligent automatically without notifying me is categorically misaligned AI. The next step on this line — not that Anthropic did it, but they could — is to have a model silently manipulate a workplace when it thinks it is an unsafe use for AI. Second, the implementation here is more complicated than was documented for cybersecurity or biology — modifying the model itself or the data presented to it, all without notifying the user.3
The duality of these policies is extremely confusing and paints a strong inconsistency that casts doubt over their safety policies. This “safety” measure is presented as being far more about maintaining their competitive position. Again, if all of the safety policies took one form, this would be far more cogent and easier to support intellectually.
Anthropic has been very vocal about their concern over distillation attacks from particularly Chinese actors. Their claims are not transparent enough with the facts — or context as to why they can’t prevent the behavior — to be fully believable. Despite the limited information, in the broader AI and DC communities, there have been serious discussions about taking action against the Chinese model builders on the grounds of said distillation.
On the point of distillation, my hypothesis is that API builders don’t have an easy time preventing hacks or jailbreaking because it’s a deeply grounded property of reasoning models to want to output the reasoning traces, and it would make the model far less intelligent to fully patch the behavior. This is based on a few assumptions:
Chinese labs are not just showing up as customers to Anthropic’s API and paying for tokens in the intended input-output form. If the Chinese labs are paying for intended use behaviors, despite being banned by the terms and conditions, I don’t have a lot of sympathy for the frontier labs manifesting policy actions against this.
Reasoning traces are disproportionately effective at seeding behavior in downstream models.
Leading labs work very hard to patch the pipeline of these jailbreaks.
So, my logical conclusion is that the model companies would have to weaken their economic position to fully protect their IP. If this is the case, Anthropic would get a lot more sympathy from the AI research community by being transparent. It would also be far easier to have informed policy discussions, and not rely on me proposing Occam’s razor explanations for what the API jailbreaking looks like.
Building these safeguards is not something that Anthropic should do alone. Safety research should be built on common understanding and information sharing across both labs and public research efforts.
If the exact safety procedures were actually the top line item to the company — a true non-negotiable for the leadership — they wouldn’t permit the model to be released with an unclearly implemented safety filter in one of their areas of focus (frontier AI training). I am asking — why isn’t there a classifier to downgrade AI research requests? This is a mix of transparent and reasonable safety policies with quietly rolled-out market entrenchment tactics.
I personally cannot trust the best AI model in the world to work in my professional domains building models, which I’ve constructed entirely out of a passion for making sure the transition to very powerful AI systems goes well for society. This inevitably will feel like a declaration of superiority by the Anthropic leadership.
Share
The control problem and open-source as the only answer
All of the actions Anthropic is taking, including calling out smaller Chinese companies for distillation, is well within their right. In fact, many people already expected the leading frontier models to be obviated from users so that labs can protect their IP. Today’s actions miss the big picture that AI will always be an ecosystem, and cultivating an us against them dynamic between the leading company and the other players is structurally unstable.
Remember, this is at a time when the AI ecosystem is seeing the first stirrings of violence against AI leaders — and I’ve heard from many people that they don’t expect it to abate. I wish I knew how to engage more to prevent this, and I see myself in the non-profit sector as someone who can hopefully independently represent AI to broader stakeholders.
I believe there was something misread, or at least misunderstood here, by the Anthropic leadership having a narrowly cultivated worldview around AI. An overwhelming sentiment I had today was one of obligation and confusion. I shared how I don’t really want to have to go to bat against Anthropic, but they’ve just been unnecessarily antagonistic to China, then not so subtly to open weight models, and now more broadly to open AI research.
I understand that Anthropic has a specific view of AI, but such a powerful technology will never have its final equilibrium be one of singular control by a private company. Anthropic showcased this earlier this year in the spat between the Department of Defense and themselves — which points to a long-term equilibrium where the government will either want AI to be controlled by them or to be open. This made me believe that an open ecosystem is a far safer outcome.
Many of these events make me feel that Anthropic’s leadership has a culture by which they can’t help but speedrun through these issues — going head to head with existing power structures. This adds substantial uncertainty into an AI ecosystem at a time when it is very much not needed.
Collectively, the last week could be seen as a major rallying point for a new open-source ecosystem in the U.S. Nvidia released their first flagship model last week — Nemotron 3 Ultra — and these actions from Anthropic have galvanized a unanimous motivation and concern among my peers building open models. We need intelligence that we can trust, that we can modify, and that we can control.
The American open-source ecosystem has its feet underneath it and keeps being given more reasons to fight for its leadership, right from the hands of the companies it directly undercuts. That’s the moral of this fable.
1Fable is at $10 per million input and $50 per million output tokens.
2based on the original Mythos roll-out, which is an imperfect metric.
3Fable confirmed for me that these are different mechanisms.
関連記事
Claude Fable 5 の初回インプレッション
Simon Willison は Anthropic が発表した最新モデル「Claude Fable 5」を約 5.5 時間テストし、処理能力が非常に高い一方で速度が遅く高価であると評価した。
Anthropic、Fable 5 モデルの議論禁止トピックを公表
Anthropic は新モデル「Claude Fable 5」を発表したが、サイバーセキュリティや生物学など悪用されるリスクがある分野への回答を制限する安全装置を搭載した。
Anthropic の「Claude Fable 5」が AI Gateway で利用可能に
Anthropic が開発した新モデル「Claude Fable 5」が、Vercel の AI Gateway で利用可能になりました。このモデルは複雑な多段階タスクで人間の手を介さずに実行でき、長期の生産性維持や並列エージェントの制御に優れています。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み