サイバーセキュリティ研究者らがアンソロピックの「Fable」におけるガードレールに不満を表明
サイバーセキュリティ研究者らが、AI 企業 Anthropic の「Fable」プラットフォームに課された過度な安全対策(ガードレール)の厳格さと実用性に対して不満を表明している。
キーポイント
セキュリティ研究者からの批判
AI セキュリティ専門家らが、Anthropic の Fable プラットフォームに適用されている安全対策が過度に制限的であり、実用的な開発やテストを阻害していると指摘している。
ガードレールの実用性への懸念
セキュリティ研究において必要な攻撃シミュレーションや脆弱性評価の活動が、プラットフォーム側の安全フィルターによって妨げられる可能性が示唆されている。
AI 開発と安全性のバランス論争
AI システムの安全性を確保するための規制(ガードレール)と、研究者による自由な検証活動の間で生じる緊張関係が浮き彫りになっている。
影響分析・編集コメントを表示
影響分析
このニュースは、AI セキュリティ分野において、ベンダー主導の安全規制が研究者の自由な活動に与える影響を浮き彫りにしており、業界全体で「安全性」と「検証可能性」のバランスを再考する必要性を示唆しています。特にセキュリティツールやプラットフォームの設計において、過度な制限が逆効果となるケースへの警戒感が高まるでしょう。
編集コメント
AI の安全性確保は重要ですが、セキュリティ研究者による検証活動まで制限されることは、結果的にシステムの脆弱性を発見する機会を失うリスクがあります。開発者とセキュリティ専門家の対話を通じた、より柔軟な安全基準の策定が求められます。
Anthropic は火曜日に最新のモデル「Fable」をリリースし、これを強力かつ大いに注目されているサイバーセキュリティ向けモデル「Mythos」の公開版かつ限定版として紹介しました。
しかし、すべての人がこの制限に満足しているわけではなく、多くのサイバーセキュリティ研究者や専門家がオンライン上で不満を表明しています。
"Fable は、間接的にサイバー関連とみなされるあらゆるリクエストを拒否します。ブログ記事を読むといった無害なタスクさえもです」と、IBM X-Force で働く著名なセキュリティ研究者であるヴァレンティナ・「Chompie」パルミオッティ氏は述べています。
プロンプトがガードレール(安全装置)に抵触すると、Fable はチャットを一時停止し、「サイバーセキュリティまたは生物学のトピックに関連するメッセージとして安全対策によりフラグが付けられました」と表示します。
ガードレールは、Fable がマルウェアの開発やソフトウェアの侵害に悪用されるリスクを制限するために設けられました。これは Anthropic 内で長年懸念されてきた問題です AI を活用したサイバー脅威 MITRE アタック。生物学に関する制限は、生物兵器の開発 に関する同様の懸念に基づいています。
AI 大手が 4 月に Mythos をリリースした際、このモデルは「Project Glasswing」と呼ばれる限られた企業や組織のみが利用できるように制限されました。これは、重要なソフトウェアやインフラの保護のためにモデルを展開しようとする取り組みです。先週、Anthropic は Mythos のアクセス権を 15 カ国の数百の組織に拡大 しました。
しかし、善意はあったものの、多くのサイバーセキュリティ専門家は制限の場当たり的な性質に依然として懸念を抱いています。サイバーセキュリティのベテランであるマット・スイッチ氏は TechCrunch に対し、「セキュアなコードの作成を依頼すると、ソフトウェアエンジニアリングのベストプラクティスではなくサイバーセキュリティ関連の仕事とみなされ、結果としてレベルが下がる」と述べています。Fable はガードレールに抵触した場合、Claude Opus 4.8 にフォールバックするようにプログラムされています。「キーワードベースのようであり、『サイバーセキュリティ』という語彙分野内のあらゆるものがガードレールをトリガーするようです。」
お問い合わせ
ハッカーが AI をどのように利用しているか、あるいはサイバーセキュリティ企業が AI をどのように活用しているかについて、さらに詳しい情報をお持ちですか?ぜひお聞かせください。業務用のデバイスやネットワークではなく、Signal で +1 917 257 1382 に Lorenzo Franceschi-Bicchierai 氏に安全に連絡するか、Telegram や Keybase の @lorenzofb を通じて、または メール でお問い合わせください。
「しかし、まだ初期段階であり、彼らがガードレールを調整中であることを考えれば理解できます。Anthropic および他のフロンティアモデル企業が現在の新興世代のサイバーセキュリティ企業とより多く協力するにつれて、時間とともに進化していくでしょう」と語るのは、AI 専門のサイバーセキュリティスタートアップである Tolmo の技術スタッフメンバーでもあるスイッチ氏です。「そのようなリリースを行う際、対象者を十分に捉えられずに済むよりも、多くの人を捉える方が良く、時間をかけてガードレールを緩和していくべきです。」
別の研究者は X で「コードレビューを依頼するだけでも」Fable のガードレールが作動すると不満を漏らしました。
Anthropic はコメント要請に対して即座には回答しませんでした。
モデル内部のガードレールのほか、Anthropic ではサイバーセキュリティ専門家に対し、Cyber Verification Program への申請を義務付けています。承認されれば、Claude をサイバーセキュリティ業務に使用する際の制限は少なくなります。OpenAI も同様の「Trusted Access for Cyber」というプログラムを持っています。
当記事内のリンクを通じてご購入いただいた場合、小規模な手数料が発生する可能性があります。これは編集の独立性には影響しません。
Lorenzo Franceschi-Bicchierai は TechCrunch のシニアライターで、ハッキング、サイバーセキュリティ、監視、プライバシーを専門に扱っています。
Lorenzo への連絡や、 outreach の確認は、lorenzo@techcrunch.com へメールを送るか、Signal で暗号化メッセージを +1 917 257 1382 宛てに、または Keybase/Telegram で @lorenzofb に送ってください。
原文を表示
Anthropic released its latest model Fable on Tuesday, billing it as a public and limited version of its powerful and much-hyped cybersecurity model Mythos.
But not everyone is happy with the restrictions, and a number of cybersecurity researchers and professionals have aired complaints online.
“[Fable] rejects any request that could be tangentially cyber related. Even innocuous tasks like reading a blog post,” said Valentina “Chompie” Palmiotti, a well-known security researcher who works at IBM X-Force.
When a prompt triggers its guardrails, Fable pauses the chat and says that its “safety measures flagged this message for cybersecurity or biology topics.”
The guardrails were put in place to limit the risk that Fable could be used to develop malware or compromise software — a long-standing concern within Anthropic. The restrictions on biology come from a similar concern around developing biological weapons.
When the AI giant released Mythos in April, it restricted the model to a limited number of companies and organizations in what it called Project Glasswing, an effort to deploy the model to secure critical software and infrastructure. Last week, Anthropic expanded access to Mythos to hundreds of organizations in 15 countries.
But despite the good intentions, many cybersecurity experts are still put off by the haphazard nature of the restrictions. Matt Suiche, a cybersecurity veteran, told TechCrunch that “if you ask it to write secure code, it assumes it is cybersecurity related work instead of software engineering best practices, and you get downgraded.” Fable is programmed to fall back to Claude Opus 4.8 if it hits a guardrail. “It seems to be keyword based, so anything in the lexical field of ‘cybersecurity’ triggers the guardrails.”
Contact Us
Do you have more information about how hackers are using AI? Or how cybersecuity companies are using AI? We’d love to hear from you. From a non-work device and network, you can contact Lorenzo Franceschi-Bicchierai securely on Signal at +1 917 257 1382, or via Telegram and Keybase @lorenzofb, or email.
“But it is understandable as we are still in the early days and they are still adapting their guardrails. I am sure they are going to evolve over time as Anthropic and other frontier model companies will collaborate more with the current new generation of cybersecurity companies,” said Suiche, who is a member of the technical staff at Tolmo, an AI cybersecurity startup. “It’s better to catch more people than not enough when you do such a release and to relax the guardrails over time.”
Another researcher griped on X that “even asking for a code review” triggers Fable’s guardrails.
Anthropic did not immediately respond to a request for comment.
Apart from guardrails inside its models, Anthropic requires cybersecurity professionals to apply to the Cyber Verification Program. If they get approved, the applicants have fewer limitations on using Claude for cybersecurity work. OpenAI has a similar program called Trusted Access for Cyber.
*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*
Lorenzo Franceschi-Bicchierai is a Senior Writer at TechCrunch, where he covers hacking, cybersecurity, surveillance, and privacy.
You can contact or verify outreach from Lorenzo by emailing lorenzo@techcrunch.com, via encrypted message at +1 917 257 1382 on Signal, and @lorenzofb on Keybase/Telegram.
関連記事
米政府によるアンソロピック禁止が、かえってブランドを助けているのか?
米国政府は国家安全保障上の懸念から、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の撤回を命じた。サイバーセキュリティ研究者らはこの措置を危険と指摘し、同社も他のモデルにも同様の抜け道が存在すると認めている。
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
Claude Fable 5 と Mythos 5 の能力に関する記事
Anthropic は、Claude Fable 5 が米政府から不正アクセス(ジャイルブレイク)の懸念によりリリース後わずか3日で利用停止を命じられたと報じています。この措置により、多くのユーザーが失った機能への愛着を表明しています。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み