自己証明するモデル
学習済みモデルの特定入力に対する正しさを保証するため、理論に基づく自己証明モデルを提案。平均精度ではなく個別入力の信頼性を確保する手法。
キーポイント
学習済みモデルの特定入力に対する出力の正しさを、平均精度ではなく個別に保証する「自己証明モデル」を提案
モデルが検証アルゴリズムVに対してインタラクティブ証明で自身の出力の正当性を証明する仕組み
Transcript Learning(TL)とReinforcement Learning from Verifier Feedback(RLVF)という2つの学習手法を開発・分析
検証アルゴリズムVの健全性により、誤った出力は全て検出可能という理論的保証を提供
影響分析・編集コメントを表示
影響分析
この研究は、AIモデルの信頼性向上に重要な理論的基盤を提供し、医療診断や金融判断など高信頼性が求められる分野での実用化に道を開く可能性がある。従来の平均精度評価の限界を超え、個別入力レベルでの保証を実現することで、AIシステムの説明責任と透明性を大幅に向上させる画期的なアプローチである。
編集コメント
AIのブラックボックス問題に理論的に挑む画期的な研究で、実社会でのAI導入における最大の障壁の一つである「信頼性の証明」に新たな道筋を示した。
タイトル: 自身の正当性を証明するモデル
自身の正当性を証明するモデル
著者 Noga Amit†, Shafi Goldwasser†, Orr Paradise†, Guy N. Rothblum
出版物を見る
学習済みモデルが、特定の関心対象の入力に対して正しい出力を行うことを、どのように信頼すればよいだろうか?モデルの精度は通常、入力の分布全体での平均値として測定されるため、個々の固定された入力に対して保証を与えるものではない。本論文は、この問題に対する理論的基盤に裏打ちされた解決策を提案する:自己証明モデルを訓練することである。このモデルは、その出力の正当性を、インタラクティブ証明を通じて検証アルゴリズムVに対して証明する。自己証明モデルは、与えられた分布からサンプリングされた入力に対して高い確率で、モデルが正しい出力を生成し、かつその正当性の証明をVに対して成功させる性質を満たす。Vの健全性の性質は、あらゆる入力に対して、いかなるモデルもVに誤った出力の正当性を納得させることができないことを保証する。したがって、自己証明モデルはその出力の大部分の正当性を証明し、一方で(いかなるモデルによる)すべての誤った出力はVによって検出される。我々は、自己証明モデルを学習するための2つの汎用的な方法を考案し、分析する:受理される対話の記録へのアクセスに依存するトランスクリプト学習と、検証者との対話をエミュレートしてモデルを訓練する検証者フィードバックからの強化学習である。
† カリフォルニア大学バークレー校
関連する文献と最新情報
How to Verify Any (Reasonable) Distribution Property: Computationally Sound Argument Systems for Distributions
2025年4月24日 / 研究分野: 方法とアルゴリズム / 会議: ICLR
統計分析が科学、産業、社会においてより中心的な役割を果たすにつれ、その結果の正当性を確保する必要性が高まっている。近似的な正当性は分析全体を再現することで検証できるが、再現なしで検証することは可能だろうか?最近の一連の研究を基盤として、確率的検証者が、より少ないサンプル数を取得しながら、分析結果が近似的に正しいことを確かめられる証明システムを研究する…
Fingerprinting Codes Meet Geometry: Improved Lower Bounds for Private Query Release and Adaptive Data Analysis
2025年1月10日 / 研究分野: 方法とアルゴリズム, 研究分野: プライバシー
フィンガープリンティング符号は、差分プライバシーにおける下界を証明するための重要なツールである。これは、特に「低精度」領域におけるいくつかの基本的な問題に対するタイトな下界を証明するために用いられてきた。しかしながら、再構成/不一致アプローチとは異なり、フィンガープリンティング符号の構成から自然に生じるクエリ集合に対して、最悪ケースの下界を証明することにより適している。本研究では、一般的な枠組みを提案する…
機械学習における機会を発見する
私たちの機械学習研究は、日々新たな領域を切り開いています。
原文を表示
Models That Prove Their Own Correctness
AuthorsNoga Amit†, Shafi Goldwasser†, Orr Paradise†, Guy N. Rothblum
View publication
How can we trust the correctness of a learned model on a particular input of interest? Model accuracy is typically measured on average over a distribution of inputs, giving no guarantee for any fixed input. This paper proposes a theoretically-founded solution to this problem: to train Self-Proving models that prove the correctness of their output to a verification algorithm V via an Interactive Proof. Self-Proving models satisfy that, with high probability over an input sampled from a given distribution, the model generates a correct output and successfully proves its correctness to V. The soundness property of V guarantees that, for every input, no model can convince V of the correctness of an incorrect output. Thus, a Self-Proving model proves correctness of most of its outputs, while all incorrect outputs (of any model) are detected by V. We devise and analyze two generic methods for learning Self-Proving models: Transcript Learning (TL) which relies on access to transcripts of accepting interactions, and Reinforcement Learning from Verifier Feedback (RLVF) which trains a model by emulating interactions with the verifier.
† University of California, Berkeley
Related readings and updates.
How to Verify Any (Reasonable) Distribution Property: Computationally Sound Argument Systems for Distributions
April 24, 2025research area Methods and Algorithmsconference ICLR
As statistical analyses become more central to science, industry and society, there is a growing need to ensure correctness of their results. Approximate correctness can be verified by replicating the entire analysis, but can we verify without replication? Building on a recent line of work, we study proof-systems that allow a probabilistic verifier to ascertain that the results of an analysis are approximately correct, while drawing fewer samples…
Fingerprinting Codes Meet Geometry: Improved Lower Bounds for Private Query Release and Adaptive Data Analysis
January 10, 2025research area Methods and Algorithms, research area Privacy
Fingerprinting codes are a crucial tool for proving lower bounds in differential privacy. They have been used to prove tight lower bounds for several fundamental questions, especially in the “low accuracy” regime. Unlike reconstruction/discrepancy approaches however, they are more suited for proving worst-case lower bounds, for query sets that arise naturally from the fingerprinting codes construction. In this work, we propose a general framework…
Discover opportunities in Machine Learning.
Our research in machine learning breaks new ground every day.

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み