推論におけるCoTの可能性:トレースダイナミクスを詳しく見る
Chain-of-thought(CoT)プロンプトは、大規模言語モデルに人間のような推論を促す標準技術で、最終回答前に個々のステップを明示させる。
キーポイント
CoT(Chain-of-Thought)推論の成功要因を「ポテンシャル」という概念で定量分析した研究
推論プロセスには非単調性、急激な洞察、幸運な推測など人間の直感と異なるパターンが存在
部分的なCoT(20%)を転用するだけで弱いモデルの性能を「解放」できる転用可能性を実証
CoTが必ずしも人間的な推論を反映せず、モデル内部のメカニズムに依存する可能性を示唆
影響分析・編集コメントを表示
影響分析
この研究はCoT推論のブラックボックスを解明する重要な一歩であり、LLMの推論能力の本質的理解と効率的な能力転用に貢献する。特に弱いモデルへの部分的なCoT転用による性能向上は、実用的なアプリケーション開発におけるリソース最適化の可能性を示している。
編集コメント
CoTの「魔法」を科学的に解剖した画期的な研究。推論プロセスの転用可能性は実務応用で大きな価値を持つ。
推論におけるCoTの可能性:トレースダイナミクスを詳しく見る
著者Gregor Bachmann, Yichen Jiang, Seyed Mohsen Moosavi Dezfooli, Moin Nabi
出版物を見る
チェーン・オブ・ソート(CoT)プロンプティングは、大規模言語モデル(LLM)から推論に似た応答を引き出す事実上の標準技術であり、最終的な答えを出す前に個々のステップを明示することを可能にします。人間のような推論との類似性は否定できないものの、CoT推論の成功を支える駆動力は、依然としてほとんど明らかになっていません。本研究では、競技レベルの数学問題から生じるCoTトレースを詳細に分析し、CoTのどの部分が、そしてどのように最終的な答えに実際に寄与しているのかをよりよく理解することを目指します。この目的のために、CoTの特定の部分が正しい結論の尤度をどれだけ高めるかを定量化する「ポテンシャル」の概念を導入します。ポテンシャルのレンズを通して推論トレースを検討すると、以下のような驚くべきパターンを特定しました。(1) しばしば強い非単調性(推論の脱線による)、(2) 非常に鋭いが時に解釈が難しいスパイク(推論の洞察と飛躍)、そして(3) 時には幸運な推測(モデルが関連する正当化を何も提供せずに正しい答えに到達する場合)です。ポテンシャルの振る舞いの一部は(洞察や脱線のように)容易に解釈可能で人間の直観と一致しますが、他のものは人間の視点からは理解が難しいままです。推論の洞察に対するLLMの依存性をさらに定量化するために、より強力なモデルからの部分的なCoTの下での、より弱いモデルのポテンシャルを測定する「CoTの転移性」の概念を調査しました。実際、以前の結果と一致して、わずか20%の部分的なCoTが、以前は解けなかった問題に対してより弱いモデルの性能を「解放」できることがわかり、CoTを支えるメカニズムの大部分が転移可能であることを強調しています。
関連する読み物と最新情報。
思考の幻想:問題の複雑さのレンズを通して推論モデルの強みと限界を理解する
2025年6月11日研究分野 音声・自然言語処理会議 NeurIPS
最近のフロンティア言語モデルの世代は、答えを提供する前に詳細な思考プロセスを生成する大規模推論モデル(LRM)を導入しています。これらのモデルは推論ベンチマークで改善された性能を示しますが、その基本的な能力、スケーリング特性、および限界は十分に理解されていません。現在の評価は主に確立された数学およびコーディングのベンチマークに焦点を当てており、最終的な...
ビジョン言語モデルのチェーン・オブ・ソート推論を改善する
2025年6月5日研究分野 コンピュータビジョン、研究分野 音声・自然言語処理会議 ACL
ビジョン言語モデル(VLM)におけるチェーン・オブ・ソート(CoT)推論は、解釈可能性と信頼性を向上させるために重要です。しかし、現在のトレーニング手法は、最小限の理論的根拠を持つ短い注釈が支配的なデータセットに依存することが多いです。本研究では、短い回答でVLMをトレーニングすると、より詳細な説明を必要とする推論タスクでの汎化性能が低下することを示します。この制限に対処するために、2段階の...
機械学習における機会を発見する。
私たちの機械学習研究は、日々新たな領域を切り開いています。

原文を表示
The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics
AuthorsGregor Bachmann, Yichen Jiang, Seyed Mohsen Moosavi Dezfooli, Moin Nabi
View publication
Chain-of-thought (CoT) prompting is a de-facto standard technique to elicit reasoning-like responses from large language models (LLMs), allowing them to spell out individual steps before giving a final answer. While the resemblance to human-like reasoning is undeniable, the driving forces underpinning the success of CoT reasoning still remain largely unclear. In this work, we perform an in-depth analysis of CoT traces originating from competition-level mathematics questions, with the aim of better understanding how, and which parts of CoT actually contribute to the final answer. To this end, we introduce the notion of a potential, quantifying how much a given part of CoT increases the likelihood of a correct completion. Upon examination of reasoning traces through the lens of the potential, we identify surprising patterns including (1) its often strong non-monotonicity (due to reasoning tangents), (2) very sharp but sometimes tough to interpret spikes (reasoning insights and jumps) as well as (3) at times lucky guesses, where the model arrives at the correct answer without providing any relevant justifications before. While some of the behaviours of the potential are readily interpretable and align with human intuition (such as insights and tangents), others remain difficult to understand from a human perspective. To further quantify the reliance of LLMs on reasoning insights, we investigate the notion of CoT transferability, where we measure the potential of a weaker model under the partial CoT from another, stronger model. Indeed aligning with our previous results, we find that as little as 20% of partial CoT can “unlock” the performance of the weaker model on problems that were previously unsolvable for it, highlighting that a large part of the mechanics underpinning CoT are transferable.
Related readings and updates.
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
June 11, 2025research area Speech and Natural Language Processingconference NeurIPS
Recent generations of frontier language models have introduced Large Reasoning Models (LRMs) that generate detailed thinking processes before providing answers. While these models demonstrate improved performance on reasoning benchmarks, their fundamental capabilities, scaling properties, and limitations remain insufficiently understood. Current evaluations primarily focus on established mathematical and coding benchmarks, emphasizing final…
Improve Vision Language Model Chain-of-thought Reasoning
June 5, 2025research area Computer Vision, research area Speech and Natural Language Processingconference ACL
Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial for improving interpretability and trustworthiness. However, current training recipes often relying on datasets dominated by short annotations with minimal rationales. In this work, we show that training VLM on short answers leads to poor generalization on reasoning tasks that require more detailed explanations. To address this limitation, we propose a two-stage…
Discover opportunities in Machine Learning.
Our research in machine learning breaks new ground every day.

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み