モデルのロジットは何を保持しているのか?(答えは驚くべきものかもしれない!)
Apple Machine Learningチームは、ビジョン言語モデルの内部表現を系統的に解析し、残差ストリームから圧縮される情報漏洩リスクと各表現レベルの保持情報を明らかにした。
キーポイント
内部表現のプロービングと情報漏洩リスク
モデル生成からは見えない内部情報がプロービングにより抽出可能であり、意図せずまたは悪意ある情報漏洩を引き起こす可能性がある。
ビジョン言語モデルを基盤とした検証
残差ストリームにエンコードされた豊富な情報が、低次元投影などの自然なボトルネックを通じてどのように圧縮されるかをテストベッドとして検証。
表現レベルごとの情報保持の比較
モデル内部の異なる「表現レベル」間で保持される情報を体系的に比較し、どの階層が機密情報を含みやすいかを明らかにした。
影響分析・編集コメントを表示
影響分析
本研究は、生成結果の表面だけでなくモデル内部の表現層をプロービングすることによる情報漏洩リスクを定量的に可視化した。これにより、AIモデルのセキュリティ監査や内部表現の解釈可能性に関する業界標準が更新される可能性がある。開発者はモデル出力だけでなく内部状態の保護も必須となる。
編集コメント
生成結果の安全性だけでなく、内部表現層のセキュリティ監査がAI開発の必須要件となる時代に入ったことを示す重要な研究です。モデル所有者は内部状態の保護対策を早急に検討すべきでしょう。
最近の研究により、モデル内部(model internals)をプロービング(probing)することで、モデルの生成結果(generations)からは明らかにならない豊富な情報が明らかにされることが示されています。
これにより、意図しない、あるいは悪意のある情報漏洩(information leakage)のリスクが生じます。モデル所有者がアクセス不可能だと想定していた情報を、モデル利用者が学習できてしまう可能性があります。
ビジョン・ランゲージモデル(vision-language models)を検証基盤(testbed)として用い、残差ストリーム(residual stream)に符号化された豊富な情報が、2つの自然なボトルネック——残差ストリームの低次元射影(low-dimensional projections)……——を経て圧縮される過程で、異なる「表現レベル」(representational levels)に保持される情報について、最初の体系的な比較を示します。
原文を表示
Recent work has shown that probing model internals can reveal a wealth of information not apparent from the model generations. This poses the risk of unintentional or malicious information leakage, where model users are able to learn information that the model owner assumed was inaccessible. Using vision-language models as a testbed, we present the first systematic comparison of information retained at different “representational levels” as it is compressed from the rich information encoded in the residual stream through two natural bottlenecks: low-dimensional projections of the residual…
関連記事
トランプ政権科学顧問、中国が米AIを大規模に模倣していると指摘
トランプ政権は、中国が米国の最先端AIモデルを大規模に蒸留・模倣している証拠を把握しており、対抗措置を講じると発表した。
問題のあるスタートアップ「Delve」の顧客が重大なセキュリティインシデント発生
TechCrunchは、AIエージェント学習スタートアップ「Context AI」が先週セキュリティインシデントを発生させたことを確認した。同社はコンプライアンス企業「Delve」の認証を受けていた。
不正アクセス者がAnthropicの制限付きAIモデル「Mythos」に侵入
不正アクセス者グループが、Anthropicの制限付きAIモデル「Mythos」に不正アクセスしたとBloombergが報じた。