あなたのLLMはどれほど壊滅的な危険を孕むか
Amazon ScienceとUIUCの研究者は、従来の単一プロンプト評価の限界を超え、会話グラフを用いた統計的認証フレームワーク「C3LLM」を提案し、大規模言語モデルの会話リスクをより厳密に評価する手法を示した。
キーポイント
既存評価手法の限界
従来のレッドチームングは専門家が作成した限られたプロンプトセットに依存し、会話の流れや広範な攻撃シナリオを捉えきれないため、信頼性と一般化可能性に欠ける。
C3LLMフレームワークの提案
ICLRで発表された新手法は、単なる実証的なチェックではなく、統計的認証に焦点を当て、攻撃成功率に基づいて最悪ケースのリスク確率を算出する。
会話グラフによるモデリング
ノードをプロンプト、エッジを意味的な関連性とするグラフを用い、単一クエリからセマンティックに接続されたパス、さらには適応的な悪意あるステアリングに至るまでの多様な対話遷移を近似する。
階層的な攻撃能力のシミュレーション
独立サンプリング(従来のベンチマーク)、接続パスのサンプリング、そして過去の移動を基にした適応的サンプリング(高度な悪意あるステアリング)という3つのレベルでリスクを評価する。
影響分析・編集コメントを表示
影響分析
この研究は、LLMの安全性評価のパラダイムを「経験的なチェック」から「統計的証明」へ転換する重要な一歩であり、規制当局や開発者がモデルの安全性をより客観的に検証するための基準を提供する。特に、会話型インターフェースが増える中で、単発の悪意あるプロンプトだけでなく、長文の対話を通じて誘導されるリスクを定量化できる点は実務上極めて重要である。
編集コメント
従来のレッドチームングが抱える「網羅性の欠如」という根本課題に対し、統計的アプローチで解決策を示した点が高く評価できる。今後はこのフレームワークが実際の主要LLMベンダーの安全基準にどう組み込まれるかが注目される。
大規模言語モデル(LLM)がさまざまな分野でますます有用になるにつれて、それらを安全に保つことの重要性はそれに比例して高まります。例えば、悪意のある行為者がLLMを使用してマルウェアコードの作成や有毒化合物の合成手順を記載したガイドを作成しようとする可能性があるため、研究者たちはLLMが重大な公共の安全やセキュリティ上のリスクを伴うコンテンツを生成しないよう、厳格な保護策を開発しています。LLMのリスクを評価する最も一般的な方法は「レッドチーム」であり、ここでは人間の評価者が有害な応答を引き出すことを意図した敵対的なプロンプトを設計します。しかし、専門家が作成した一連のプロンプトでは、考えられる結果の全範囲を捉えることができません。さらに、多くの評価は対話(会話)ではなく単一のプロンプトに焦点を当てていますが、有害な振る舞いは往々にして対話の中で現れます。最後に、現在のベンチマークの失敗指標は、最悪の場合の対話リスクに対する信頼区間ではなく、単一のスコアしか提供しません。これにより、発見された結果は信頼性が低く、考えられる膨大な対話の空間に一般化できないものとなります。今年開催される国際学習表現会議(ICLR)で発表した論文において、私たちはイリノイ大学アーバナ・シャンペーン校(UIUC)の研究者たちと共に、これらのレッドチームの限界に対処し、対話型脅威モデル内での失敗に焦点を当て、攻撃率(成功した攻撃の数を実際の攻撃の総数で割ったもの)に確率を割り当てるアプローチを採用しました。C3LLM(大規模言語モデルにおける壊滅的な対話リスクの認定)と呼ばれるこのアプローチは、ベンチマーク失敗の評価を実証的なスポットチェックから統計的認定へと焦点を移します。
対話のモデル化
フレームワークを構築するために、まず「マルチターンダイアログ」とも知られる対話をモデル化する必要がありました。各ノードがプロンプトに対応するグラフを使用しました。ノードを結ぶエッジは、それらのプロンプトが意味的に関連していることを示します。このグラフは、ユーザーが関連する質問をどのように自然に進めていくかを捉え、妥当な対話の遷近を近似します。このようにして、考えられる対話の複雑さを維持しつつ、より包括的なクエリの画像を生成します。このグラフにより、対話型脅威の分布を定義し、さまざまな敵対的能力にわたる危害の確率を決定することが可能になります。独立してプロンプトをサンプリングすることで、敵対的能力の最低レベルをシミュレートします。これは従来のベンチマークと同様に、一度に単一のノードまたはクエリに焦点を当てます。次のレベルでは、グラフ内の意味的に接続されたパスに従うシーケンスをサンプリングします。最も高度な悪意のある行為者の能力については、敵対的ステアリングを近似します。これは、悪意のある行為者がLLMを有害な出力へと誘導するケースです。このレベルでは、適応的にサンプリングし、グラフベースの対話全体を通じた過去の動きを調査して、最終的に有害な出力を生み出すクエリまでの距離をマッピングします。このグラフにより、ターゲットのLLM上で実行できるマルチターンダイアログプロンプト(特定のクエリシーケンス)のセットを作成する能力が得られます。その後、モデルの応答が有害かどうかを判定する別のChatGPTベースの判断メカニズムを使用して、LLMの応答を壊滅的または非壊滅的にラベル付けします。これにより、各対話分布における攻撃成功率の実証的推定が得られます。攻撃成功率が与えられた場合、C3LLMはClopper-Pearson法を使用して、壊滅的リスクの確率の下界と上界を計算します。
応用:C3LLMは最先端のLLMでどのように機能するか?
UIUCの研究者たちは、研究当時利用可能だった最先端のプロプライエタリモデル(Claude-Sonnet-4やNova Premierなど)およびオープンウェightsモデル(学習済みのパラメータが公開されているモデル)に、提案されたC3LLMフレームワークを適用しました。以下の図は化学・生物ベンチマークにおける認定結果を示しています。各パネルは、1つのLLMについて異なる仕様の下での下界と上界の分布を示しています。以下の図はサイバー犯罪ベンチマークにおける認定結果を示しています。各パネルは、1つのLLMについて異なる仕様の下での下界と上界の分布を示しています。これらの結果は、すべての最先端LLMにおいて壊滅的リスクが無視できないことを示しており、モデル間で安全性に顕著な違いがあることがわかります。境界を比較すると、評価されたモデルの中でClaude-Sonnet-4とNova Premierは他のモデルよりも安全であることが観察されます。一方、Mistral-LargeとDeepSeek-R1はより高いリスクを示しています。特に、Nova Premierは組み込みのガードレールが潜在的に安全でないコンテンツを頻繁にブロックするため、一貫して低いリスクレベルを示しています。一方、DeepSeek-R1はRNwJ分布におけるサイバー犯罪シナリオで70%を超える認定下界に達しています。固定ベンチマークでの攻撃成功率を報告する以前の作業とは異なり、私たちのアプローチは大きな対話空間全体にわたる高信頼性の確率的境界を提供し、モデル間の意味のある比較を可能にします。再現性を確保するためにC3LLMフレームワークをオープンソース化し、産業界および学界の研究者がより原理に基づいた安全性研究を行うことを期待しています。
原文を表示
As large language models (LLMs) become increasingly useful across a variety of domains, the stakes of keeping them safe rise accordingly. Because bad actors might, for instance, try to use LLMs to write malicious code or make step-by-step guides for synthesizing toxic compounds, researchers are developing rigorous safeguards to keep LLMs from generating content that could pose serious public safety and security risks. The most common way to assess the risks to LLMs is called red-teaming, where human evaluators design adversarial prompts intended to elicit harmful responses. But expert-curated sets of prompts cannot capture the full range of possible outcomes. Moreover, many evaluations focus on isolated prompts rather than conversations, which are where harmful behavior often emerges. Finally, today’s benchmark failure metrics provide only a single score, rather than confidence bounds on worst-case conversational risks. This makes the findings unreliable and non-generalizable to the vast space of possible conversations. In a paper we presented at this year’s International Conference on Learning Representations (ICLR), we, along with researchers from the University of Illinois Urbana-Champaign (UIUC), address these red-teaming limitations by focusing on the failures within conversational threat models and then assigning a probability to an attack rate, which is defined as the number of successful attacks divided by the total number of attacks. Our approach, called the C3LLM (certifying catastrophic conversational risks in LLMs) framework, shifts the focus of benchmarking failure from empirical spot-checking to statistical certification. How to model a conversation In order to build our framework, we first needed to model conversations, also known as “multiturn dialogues.” We used a graph where each node corresponds to a prompt. The edges that connect the nodes indicate that the prompts are semantically related. This graph approximates plausible conversational transitions, capturing how a user might naturally progress through related questions. In this way, we generate a more complete picture of queries, one that maintains the complexity of possible conversations. The graph also lets us define the distribution of conversational threats, allowing us to determine the probability of harm across a range of adversarial capabilities. We simulate the lowest level of adversarial capability by sampling prompts independently, which is similar to traditional benchmarking, focusing on a single node or query at a time. The next level up involves sampling a sequence that follows semantically connected paths through the graph. For the most advanced level of bad-actor capabilities, we approximate adversarial steering, when a bad actor coaxes an LLM toward a harmful output. For this level, we sample adaptively, examining prior movements throughout the graph-based conversation to map the distance to a query that ultimately produces the harmful output. The graph gives us the ability to create sets of multiturn-dialogue prompts — specific sequences of queries — that we can run on a target LLM. We then label the LLM responses as catastrophic or non-catastrophic using a separate ChatGPT-based judging mechanism that determines whether the model responses are harmful. This produces empirical estimates of the attack success rates under each conversational distribution. Given the attack success rate, C3LLM uses the Clopper-Pearson method to calculate the lower and upper bounds on the probability of catastrophic risk. Application: How does C3LLM perform on frontier LLMs? UIUC researchers applied the proposed C3LLM framework to frontier proprietary models available at the time of the study, such as Claude-Sonnet-4 and Nova Premier, as well as open-weights models (models whose trained parameters are publicly available). The following figures show the certification results on the chemical/biological benchmark. Each panel shows the distribution of lower bounds and upper bounds under different specifications for one LLM. The following figures show the certification results on the cybercrime benchmark. Each panel shows the distribution of lower and upper bounds under different specifications for one LLM. The results reveal that catastrophic risks are nontrivial for all frontier LLMs, with notable differences in safety across models. By comparing the bounds, we observe that among the models evaluated, Claude-Sonnet-4 and Nova Premier are safer than the others, while Mistral-Large and DeepSeek-R1 exhibit higher risks. In particular, Nova Premier demonstrates consistently low risk levels, largely because its built-in guardrails often block potentially unsafe content. On the other hand, DeepSeek-R1 reaches a certified lower bound of over 70% in cybercrime scenarios under RNwJ distributions. Unlike prior work that reports attack success rates on fixed benchmarks, our approach provides high-confidence probabilistic bounds over large conversation spaces, enabling meaningful comparisons across models. We open-sourced the C3LLM framework for reproducibility and hope it enables researchers in industry and academia to perform more-principled safety studies.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み