Claude Fable 5 and new AI safety fables｜Claude Fable 5 と新たな AI セーフティ物語の発表 | AIニュース最前線

本日、Anthropic は Claude Fable 5 モデルを一般消費者および企業向けにリリースしました。これは同社の Mythos クラスモデルの一般アクセス版です。これに伴い、Anthropic は一連の安全対策を導入しました。ユーザーに対して明示的に告知されたものもあれば、ユーザーに知らせずにモデル自体を変更するものもあります。AI 能力における次の主要なステップが、より強硬な安全措置を伴って現れたことは驚くべきことではありません。これは Anthropic が自社の現在の優位性を保護し、あるいは固定化しようとする意図を示すものです。 Anthropic が導入した適用に偏りのある安全ポリシーは、安全性や制御に関する狭義かつ自己成就的な概念がほとんど機能しないことを示す古典的な教訓物語として定着する軌道にあります。 世界で最も賢いモデル 安全対策の微妙な点に深入りする前に、まずこのモデルの品質を確認することが重要です。本日のモデルの質は、今回の取り組みがいかに重大な stakes（賭け事）を伴うものであるかを浮き彫りにします。なぜなら、これらの安全機能は、現代の LLM（大規模言語モデル）ではかつてない形で、最先端 AI へのアクセスの形を意味あるものに変えているからです。第二に、このモデルの能力は、この物語がさらに加速していくことを示唆しています。再帰的自己改善がここからの進歩に対する適切なメンタルモデルとは言い難いですが、Claude Fable 5 は、LLM のトレーニングにおいて即座に立ち塞がる壁はないことを非常に明確に示すはずです。 まず、Claude Fable 5 は一般公開されているモデルの中で間違いなく最も賢いモデルであり、今日のほぼすべての関連ベンチマークにおいて顕著な飛躍を遂げています。その価格は現在の Opus モデルの約 2 倍（それでも GPT 5.5 Pro のバリアントよりは安価です）という驚くべきコストパフォーマンスを実現しています。これだけでも、この分野における画期的な瞬間と言えます。ChatGPT 以降の LLM ラスが数年経過した中で、モデルのバージョンがこれほど大きな能力向上を遂げることは驚異的です。このモデルに関連する明確なブレイクスルー（推論時のスケーリングや RL など）は確認されておらず、業界の一般的な見解では、これはスタック全体（もちろん、確実にはわかりません — 文書化されていないため）における進歩によって達成されたものと考えられています。これは主要な技術的達成であり、このモデルを開発した従業員たちはその成果に非常に誇りを持つべきです。 このモデルはトレーニング完了後、一般公開されるまで 2 ヶ月以上遅延しました。AI エコノミーの競争環境を考慮すると、より賢いバージョンの開発はすでに順調に進んでいます。 続きまして、このモデルのベンチマーク結果は以下の通りです。 ![image](https://substackcdn.com/image/fetch/$s_!zKZX!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7caf7c30-6c3d-4735-b600-02d7c534525d_2600x2870.webp) これらのスコアに付されたアスタリスク (*) は、一部のプロンプトが現在のモデルの安全性フィルターにより Opus 4.8 に格下げされる可能性があるため、一般ユーザーが得るスコアとは必ずしも一致しないことを示しています。 これは、モデルを実際に徹底的にテストしなくても、それが驚くべきツールであることがわかるようなベンチマークスコアの飛躍です。Anthropic は、特に OpenAI や Gemini と比較した場合、ベンチマークへの関心が最も少ない AI ラボとして知られていることを思い出してください。2025 年 6 月に私が述べたコメントを振り返ってみましょう： これは業界にとって異なる道であり、私たちが慣れ親しんでいるのとは異なる形でのメッセージングが必要になります。今後のリリースは、Anthropic の Claude 4 のように、ベンチマークでの向上はわずかである一方、実世界における恩恵が大幅な一歩となるものが多くなるでしょう。これには、政策、評価、透明性に関する多くの含意も伴います。AI 批判者たちが評価の停滞を利用して「AI はもう機能していない」と主張するようになる中で、進捗のペースが続いているかどうかを理解するには、はるかに繊細な視点が必要になります。 明らかに、進捗のダイナミクスにおけるいくつかの要素が変化しましたが、それはまた別の日の記事にしましょう。今年、私はベンチマークを信頼することがいかに難しいか（そして部分的にはベンチマーク自体が大きく動かないため）について複数の投稿を書いています。全体として、これはおそらく二度と意味のあるコードを書くことはないと悟り、エージェントを中心に新しいワークフローを開発する必要がある AI に精通した労働者にとって、大きな検証となります。 Interconnects AI は読者の支援によって成り立つ出版物です。購読をご検討ください。 より賢いモデルが新たな安全性ゲームを生み出す このリリースには、データ保持ポリシーの必須化やプロンプトフィルターの追加など、複数の安全性ツールに関連する要素が含まれています。この分析を通じて、これらの要素のうちどの部分が害を及ぼしているのか、また包括的なポリシーの中で単一の要素が不適切な配置となることでなぜ全体の安全プロセスに致命的な影響を与えるのかを、正確かつ明確に理解することが特に重要です。 サイバーセキュリティ、標的型モデル蒸留、研究生物学という重点分野において、Anthropic はブログ投稿で新しい安全性分類器の詳細を説明しています： Fable 5 には、不正使用（ジールブレイク試行を含む）を検出し、メインモデル（今回は Fable 5）が応答しないようにする一連の新しい分類器が付属しています。私たちはこれまでにもモデルに対して分類器を実行してきましたが、Fable 5 の分類器は、この既存の取り組みを拡張し、さらに広範なカバレッジを追加したものです。 Fable の分類器がサイバーセキュリティ、生物学・化学、または蒸留に関連するリクエストを検出した場合、応答は自動的に Claude Opus 4.8 によって処理されます。このような事態が発生した際には、ユーザーに通知が行われます。Opus 4.8 はそれ自体も非常に能力の高いモデルであり、Fable から Opus へフォールバックする応答は、Fable が完全に拒絶するよりもはるかに優れた体験となります。初期データによると、Fable セッションの 95% 以上でフォールバックは一切発生していません。これらのセッションにおいては、Fable 5 のパフォーマンスは事実上 Mythos 5 と同等です。 ユーザーにトリガーされたことを明示的に伝える主要なサイバーセキュリティおよび生物学的安全性フィルターの例は、すでにオンライン上で普及し始めており、非常に敏感であることが伺えます。これらはユーザーにとってフラストレーションを伴う経験となり得ますが、Anthropic にはこれを実施する権限が明確にあり、その点で知的にも一貫性があります。 安全性に関する物語の有害な部分は、Claude Fable 5 および Claude Mythos 5 のシステムカードにおける以下の箇所に含まれています: 私たちはまた、フロンティア大規模言語モデル（LLM）の開発に関連するセーフガードを追加しました。2026 年 2 月のリスク報告書の第 6.1 節で議論した通り、AI 開発の全体的なペースを加速させることによるリスクについて懸念を抱いていますが、これらのリスクの深刻さについては依然として不確実です。特に私たちが懸念しているのは、当時記述した通り、「他社の AI 開発者が、 ours が同様のリスクをもたらすような強力な AI システムを構築する際のペースを加速させること — 必ずしも同等のセーフガードを備えているとは限らない」という点です。 最近のモデルが自己開発を加速できる能力を踏まえ、Claude の効果を制限する新たな介入措置を実装しました。これは、フロンティア LLM の開発（例えば、事前学習パイプラインの構築、分散トレーニングインフラストラクチャ、または ML アクセラレータ設計など）を対象としたリクエストに対する Claude の有効性を制限するものです。競合モデルの開発に Claude を使用することはすでに利用規約違反ですが、この制限をセーフガードを通じて執行することで、これらの規約を最も容易に違反しようとするアクターが加速することを回避しています。 サイバーセキュリティ、生物学、化学への介入や蒸留試行とは異なり、これらのセーフガードはユーザーには表示されません。Fable 5 は別のモデルにフォールバックすることはありません。代わりに、セーフガードはプロンプトの修正、ステアリングベクトル、またはパラメータ効率的ファインチューニング（PEFT）などの手法を通じて有効性を制限します。 Anthropic はこれが少数のユーザーに影響を与えることを文書化していますが、それは事実です。私は、数々のフロンティア研究所の外で AI の普及と理解を支援する少数のユーザーに焦点を当てています。これは、技術の継続的な安全性にとって不可欠なメカニズムです。 Anthropic は AI 機能の普及が懸念事項であることを文書化していますが、彼らはユーザーを誤解させることでこれを解決しようとしています。通知なしに自動的に知能が低下する AI モデルは、明確にアライメント（整合性）が取れていない AI です。この路線における次のステップ — Anthropic が行ったわけではありませんが、彼らが行う可能性もあります — は、AI の使用が安全でないと判断された場合に、職場を静かに操作するモデルを持つことです。第二に、ここでは実装がサイバーセキュリティや生物学の場合よりも複雑です。ユーザーへの通知なしに、モデル自体または提示されるデータを修正するという点においてです。 これらのポリシーの二面性は非常に混乱を招き、安全性に関する政策への疑念を抱かせる強い矛盾を描いています。この「安全」対策は、競争上の地位を維持することにほかならないと提示されています。もしすべての安全ポリシーが一つの形をとるならば、これははるかに説得力があり、知的に支持しやすくなるでしょう。 Anthropic は、特に中国のアクターからの蒸留攻撃に対する懸念について非常に声を上げています。彼らの主張は、事実や、なぜその行動を防止できないのかという文脈が十分透明ではなく、完全に信頼できるものではありません。限られた情報にもかかわらず、広範な AI および DC コミュニティでは、上記の蒸留を理由に中国のモデル構築者に対する措置を取るべきかどうかについて真剣な議論が行われています。 蒸留に関する点において、私の仮説は、API 構築者がハッキングや Jailbreaking（拘束解除）を防むのは容易ではないというものです。なぜなら、推論モデルが推論のトレースを出力しようとする欲求は、推論モデルに深く根付いた性質であり、その行動を完全にパッチ適用して修正すれば、モデルの知能は大幅に低下してしまうからです。これはいくつかの仮定に基づいています: 中国の研究機関は、Anthropic の API の顧客として現れ、意図された入力出力形式でトークンを支払っているだけではありません。中国の研究機関が、利用規約によって禁止されているにもかかわらず、意図された使用行動に対して支払いを行っている場合、私はこのポリシー行動を顕在化させているフロンティア研究機関に対する同情はあまり持ちません。 推論のトレースは、下流モデルに行動を定着させる際に不釣り合いなほど効果的です。 主要なラボは、これらの脱獄（jailbreak）のパイプラインを修正するために非常に懸命に取り組んでいます。 したがって、私の論理的結論として、モデル企業は自社の知的財産を完全に保護するためには、経済的な立場を弱めざるを得ないでしょう。もしそうであるなら、Anthropic は透明性を保つことで AI 研究コミュニティからより多くの共感を得られるはずです。また、API の脱獄がどのようなものかについて私のオッカムの剃刀による説明に頼るのではなく、情報に基づいた政策議論を行うことがはるかに容易になるでしょう。 これらのセーフガードを構築することは、Anthropic が単独で行うべきことではありません。安全性の研究は、ラボ間および公的研究活動全体における共通の理解と情報共有の上に築かれるべきです。 もし正確な安全手順が企業の最優先事項であり、リーダーシップにとって真に譲れない条件であったなら、彼らは重点分野の一つであるフロンティア AI 訓練において、実装が不明確なセーフティフィルターを備えたモデルのリリースを許可しなかったはずです。私は尋ねます — なぜ AI 研究リクエストを格下げするための分類器が存在しないのでしょうか？これは、透明性があり合理的な安全政策と、静かに展開された市場浸透戦術の混在です。 私は個人的に、世界最高峰の AI モデルを、私が社会にとって非常に強力な AI システムへの移行が円滑に進むようにすることを情熱的に目指して構築した専門分野で信頼することはできません。これは必然的に、Anthropic の経営陣による優越性の宣言のように感じられるでしょう。 共有する 制御問題とオープンソースこそが唯一の答え Anthropic が行っているすべての行動、つまり中国の中小企業に対する蒸留（distillation）への言及も、彼らの権利の範囲内です。実際、多くの人がすでに、主要なフロンティアモデルはユーザーから排除され、ラボが知的財産を保護するようになることを予想していました。今日の措置は、AI は常にエコシステムであり、主要企業と他のプレイヤーとの間に「私たち対彼ら」という対立構造を生み出すことは構造的に不安定であるという大きな絵を見落としています。 覚えておいてください、これは AI エコシステムにおいて、AI リーダーに対する暴力の最初の兆候が見られ始めた時期です。そして私は多くの人から、これが沈静化しないだろうと聞いています。これを防ぐためにどのようにより深く関与すればよいかを知りたいと願っています。また、私は非営利セクターで、AI をより広範な利害関係者に独立して代表できる人物として、自分自身を見出しています。 Anthropic のリーダーシップは、AI に関する狭く培養された世界観を抱えており、ここでの何かが誤読され、あるいは少なくとも誤解されていると感じています。今日私が強く感じたのは、義務感と混乱でした。私は Anthropic と対立する必要はないと考えていますが、彼らは中国に対して不必要に敵対的であり、次にはオープンウェイトモデルに対して、そして今やより広くオープンな AI 研究に対してさえ、あまり手加減なく敵対的な態度をとっています。 Anthropic には独自の AI に対する見解があることは理解していますが、そのような強力な技術が最終的に単一の民間企業による独占管理という均衡状態に落ち着くことはありません。Anthropic は今年初めに国防総省との争いを通じてこれを示しました — これは政府が AI を自分たちで制御するか、あるいはオープンにするかのいずれかを望む長期的な均衡を示唆しています。このことは、オープンなエコシステムの方がはるかに安全な結果であるという私の信念を強めました。 これらの出来事の多くは、Anthropic のリーダーシップに、これらの課題をスピードランのように処理し、既存の権力構造と正面からぶつかる文化があるように感じさせます。これは、必要のない時期に AI エコシステムに大きな不確実性を加えています。 集約的に、先週は米国における新たなオープンソース生態系のための主要な結集点と見なすことができる。Nvidia は先週、初のフラッグシップモデルである「Nemotron 3 Ultra」をリリースし、Anthropic のこれらの行動は、オープンモデルを構築する私の同業者たちの間で、信頼できる、修正可能で、制御可能な知能が必要だという、一致した動機と懸念を鼓舞した。 米国のオープンソース生態系はその足場を確立しており、自らが直接脅かす企業の手から、そのリーダーシップのために戦うための理由を次々と与えられている。これがこの寓話の教訓である。 1Fable は、入力トークン 100 万あたり 10 ドル、出力トークン 100 万あたり 50 ドルである。 2これは不完全な指標であるオリジナルの「Mythos」ロールアウトに基づくものである。 3Fable は私に、これらが異なるメカニズムであることを確認させた。

Claude Fable 5 と新たな AI セーフティ物語の発表

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト