Ars Technica AI·2026年5月2日 00:32·約2分

GPT-5.5 がサイバーセキュリティテストで Mythos Preview に匹敵する性能を示す

#LLM #サイバーセキュリティ #Red Teaming #OpenAI #Anthropic

TL;DR

UK の AI セキュリティ研究所（AISI）による新テストで、OpenAI の GPT-5.5 が Anthropic の Mythos Preview と同等かそれ以上のサイバーセキュリティ性能を示し、業界の脅威認識に新たな知見をもたらした。

AI深層分析2026年5月2日 01:03

重要/ 5段階

深度40%

キーポイント

GPT-5.5 のサイバー評価での卓越したパフォーマンス

AISI の Expert レベル課題において GPT-5.5 は平均 71.4% を達成し、Anthropic の Mythos Preview（68.6%）を上回る結果となった。

具体的な難易度タスクでの実証

Rust バイナリの逆アセンブラ構築という極めて困難な課題を、GPT-5.5 は 10 分 22 秒で無人的に解決し、API コストはわずか$1.73 であった。

複雑な攻撃シミュレーションでの初成功

企業ネットワークへのデータ抽出攻撃を模倣した「The Last Ones」テストで、GPT-5.5 は 10 回の試行中 3 回成功し、過去に一度も成功したモデルがいない中で歴史的な成果を残した。

依然として存在する限界

発電所の制御ソフトウェアを妨害する「Cooling Tower」シミュレーションのような極めて高度な攻撃には、GPT-5.5 も他のモデル同様に失敗しており、完全な脅威ではないことが示された。

影響分析・編集コメントを表示

影響分析

このニュースは、OpenAI と Anthropic の最新モデル間でサイバー攻撃能力に明確な格差がないことを示し、両社のセキュリティリスク管理戦略（特に Mythos Preview の限定公開）の妥当性を再考させる要因となる。また、一般公開された GPT-5.5 が過去にないレベルの攻撃シナリオを成功させたことは、企業やインフラ管理者に対し、AI による自動化攻撃への防御策を即座に強化するよう迫る重要な警鐘である。

編集コメント

「脅威」として過剰に喧伝されたモデルと、実際に公開された最新モデルの性能差がほぼないという事実は、セキュリティ業界における「特定のモデルへの過度な警戒」から「全体的な AI 能力レベルへの対策」へ視点をシフトさせる転換点となり得ます。

先月、Anthropic は、Mythos Preview モデルが示す supposedly 異常に大きなサイバーセキュリティ脅威について大々的に取り上げ、同社が初期リリースを「重要な産業パートナー」に限定するに至ったと報じました。しかし、英国の AI セキュリティ研究所（AISI）による新たな調査では、先週一般公開された OpenAI の GPT-5.5 が、「先月当グループが評価した Mythos Preview と同程度のサイバー評価におけるパフォーマンス水準に達している」ことが示されました。

2023 年以来、AISI は逆エンジニアリング、ウェブエクスプロイト、暗号化など、サイバーセキュリティタスクにおける能力をテストするために設計された 95 の異なる Capture the Flag チャレンジを通じて、さまざまな最先端 AI モデルを検証してきました。最高レベルの「エキスパート」タスクにおいて、GPT-5.5 は平均 71.4 パーセントを達成し、Mythos Preview が記録した 68.6 パーセント（ただし誤差範囲内）をわずかに上回りました。特に困難なタスクの一つである、Rust バイナリをデコードするためのディスアセンブラを構築する課題については、AISI は「GPT-5.5 は API 呼び出しに 1.73 ドルのコストをかけ、人間の支援なしで 10 分 22 秒でこの課題を解決した」と指摘しています。

GPT-5.5 はまた、企業ネットワークに対する 32 ステップのデータ抽出攻撃をシミュレートする AISI テスト範囲である「The Last Ones」（TLO）における進捗においても、Mythos Preview と同等の結果を示しました。GPT-5.5 は TLO で 10 回の試行のうち 3 回で成功しましたが、Mythos Preview は 10 回中 2 回でした。これまでにテストされたどのモデルも、このテストに一度も成功したことはありませんでした。しかし、GPT-5.5 もまた、発電所の制御ソフトウェアの妨害を試みるという、AISI のより困難な「Cooling Tower（冷却塔）」シミュレーションでは失敗しており、これはこれまでテストされたすべての AI モデルが同様に示してきた結果です。

記事全文を読む

原文を表示

Last month, Anthropic made a big deal about the supposedly outsize cybersecurity threat represented by its Mythos Preview model, leading the company to restrict the initial release to “critical industry partners.” But new research from the UK's AI Security Institute (AISI) suggests that OpenAI's GPT-5.5, which launched publicly last week, reached "a similar level of performance on our cyber evaluations" as Mythos Preview, which the group evaluated last month.

Since 2023, the AISI has run a variety of frontier AI models through 95 different Capture the Flag challenges designed to test capabilities on cybersecurity tasks, such as reverse engineering, web exploitation, and cryptography. On the highest-level "Expert" tasks, GPT-5.5 passed an average of 71.4 percent, slightly higher than the 68.6 percent achieved by Mythos Preview (though within the margin of error). In one particularly difficult task that involved building a disassembler to decode a Rust binary, AISI notes that "GPT-5.5 solved the challenge in 10 minutes and 22 seconds with no human assistance at a cost of $1.73" in API calls.

GPT-5.5 also matched Mythos Preview in its progress on "The Last Ones" (TLO), an AISI test range set up to simulate a 32-step data extraction attack on a corporate network. GPT-5.5 succeeded in 3 of 10 attempts on TLO, compared to 2 of 10 for Mythos Preview—no previous model had ever succeeded at the test even once. But GPT-5.5 still fails at AISI's more difficult "Cooling Tower" simulation of an attempted disruption of the control software for a power plant, as every previously tested AI model also has.

Read full article

Comments

この記事をシェア

Simon Willison Blog重要度42026年5月1日 08:03

OpenAI の GPT-5.5 のサイバーセキュリティ能力に関する評価

The Verge AI重要度42026年4月30日 20:09

OpenAI の新セキュリティモデル「GPT-5.5-Cyber」は重要サイバー防衛者限定で提供

The Zvi重要度42026年6月26日 23:51

ホワイトハウスが個別に GPT-5.6 のアクセス権をその場しのぎで決定する方針へ

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む