AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
通义大模型·2026年4月7日 18:33·約11分で読める

FIPO:2%のトークンを精密追跡し、大規模モデルの推論ボトルネックを突破!

#大規模言語モデル#強化学習#モデル最適化#推論#効率化#通義
TL;DR

通義実験室の研究チームは、大規模言語モデルの推論能力向上において、出力トークンのわずか2%が決定的に重要であることを発見し、それらを特定・最適化する新アルゴリズムFIPOを開発し、純粋強化学習設定で競合モデルを性能で上回った。

AI深層分析2026年4月7日 21:42
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
5

キーポイント

1

強化学習によるモデル変更の極度な疎性の発見

強化学習による微調律後、モデルの出力トークンの98%以上はほとんど変化せず、変化は極めて少数の「決定的なトークン」に集中していることが判明した。

2

新評価指標「Δlog p」の導入

従来のKLダイバージェンスやエントロピーでは変化の「方向性」を捉えられない問題を解決するため、トークン生成が「奨励」されているか「抑制」されているかを定量化する新指標を提案した。

3

新アルゴリズム「FIPO」の開発と実証

Future-KLメカニズムを導入したFIPOアルゴリズムにより、決定的なトークンを特定・報酬付けし、純粋強化学習における「推論長停滞」問題を解決し、32B規模で競合モデルを性能で上回った。

4

強化学習の作用メカニズムの再解釈

強化学習は新能力を創造するのではなく、モデルが元々到達可能であった正しい推論経路を、少数の論理決定点で「レール切り替え」する役割を果たすことが示された。

5

FIPO算法的核心机制

FIPO通过量化Token级的'未来影响力(Future-KL)',实时追踪每个Token对后续推理轨迹的概率偏移,实现从全局统一奖励向Token级精确信用分配的跨越。

6

工程稳健性设计

FIPO设计了极端值过滤、软衰减窗口和影响力权重裁剪三道防线,有效抑制训练不稳定性,确保优化过程平滑推进。

7

FIPOの実験的成果

FIPOは従来の約4,000トークンで停滞していた推論長を、平均10,000トークン以上に押し上げ、推論長の増加と問題解決精度の間に強い正の相関があることを実証した。

影響分析・編集コメントを表示

影響分析

この研究は、大規模言語モデルの強化学習微調律の効率化と性能向上に直接寄与する実用的な技術進展である。強化学習の作用が極度に疎であるという発見は、従来の直観を覆すものであり、モデル編集や効率的な訓練手法の研究に新たな方向性を示す可能性が高い。

編集コメント

強化学習の「ブラックボックス」をトークンレベルで解明し、その作用が驚くほど局所的であることを実証した点が画期的。性能向上だけでなく、基礎研究としても価値が高い。

通義ラボ 2026-04-07 17:33 浙江

image
image

正確なトークンを追跡し、大規模言語モデルの強化学習における「バタフライ効果」を解く

バタフライ効果とは、小さな蝶の羽ばたきが遠くで嵐を巻き起こす可能性があるという概念です。

しかし、主流の強化学習(RLVR)は推論チェーン上のすべてのトークンを同様に扱います——どの「蝶」が鍵となるのかを認識していません。

では、どのように見つけ出すのでしょうか?

通義ラボのインテリジェントコンピューティングチームは、4つの技術ブログを連続して公開しました。最初の3つでは強化学習の「ブラックボックス」に深く入り込み、モデル推論の基礎メカニズムと潜在的な限界を段階的に解明しました。第4弾では、新しいアルゴリズム「FIPO(Future-KL Influenced Policy Optimization)」を正式に発表しました。この手法は「Future-KL」メカニズムを導入し、重要なトークンに報酬を与えることで、純粋な強化学習トレーニングにおける「推論長さの停滞」問題に対処します。32B規模の純粋な強化学習設定において、o1-miniおよび同等規模のDeepSeek-Zero-MATHに対する性能向上を先駆的に実現しました。

image
image

論文:https://arxiv.org/pdf/2603.19835

コード:https://github.com/qwenpilot/FIPO

モデル:https://www.modelscope.cn/models/qwenpilot/FIPO_32B

トレーニング曲線:https://swanlab.cn/@QwenPilot/FIPO

image
image

ブログ:https://qwen-pilot.notion.site/rlvr-theseus

大規模言語モデルが強化学習(RL)によるファインチューニングを経た後、業界の一般的な直感は、モデルの推論メカニズムが大幅に「書き換えられた」というものです。この仮説を検証するため、インテリジェントコンピューティングチームはトークンレベルでモデルの挙動を逐語的に解剖しました——トレーニング前後のすべての出力決定を引き合いに出して比較したのです。

結果は予想外のものでした:98%以上のトークンは、トレーニング前後でほとんど変化がありませんでした。

image
image

データから明らかになったのは、モデルの出力分布におけるJSダイバージェンス(JS Divergence:JS散度)がシーケンスの大部分でほぼゼロに近づき、ごく一部の位置でのみパルス状の急増が見られることです。つまり、強化学習はモデルに新たな能力を凭空から生み出したわけではなく、「極めてスパース(疎)だが重要」という特徴を示しています。

図(c)に示すように、強化学習の役割は精密な「車線変更スイッチ」のようなものです。ごく少数の重要な論理判断点(RL edit:強化学習編集)で微調整介入を行うだけで、モデルを本来辿り得るが維持が難しい正しい推論パスへと導くことができます。

image
image

Blog:https://qwen-pilot.notion.site/rlvr-direction

重要なトークンが極めてスパースであることがわかったなら、数万に及ぶ出力の中からそれらをいかに正確に見つけ出すかという課題が残ります。

さらなる探求において、チームは業界で一般的に使用される従来の評価指標(エントロピー Entropy、KLダイバージェンスなど)には本質的な観測の盲点があることに気づきました。これらの指標はモデルが「どれほど変化したか(振幅)」を測定することはできますが、変化の具体的な形態を明らかにすることができないのです。

image
image

図(a)および図(b)に示すように、従来の指標による観測では、ベースモデルと強化学習適用後のモデルの出力分布は高度に重複しており、依然として「大海に針を見つける」ような状態です。

そこでチームは、新しい観測次元として記号対数確率差(Δlog p)を導入しました。

このように理解できます:Δlog p は最適化の方向性(Direction)を正確に捉え、強化学習が特定のトークンの生成を「奨励」しているのか「抑制」しているのかを明確に定量化します。重要なのは、どれほど変化したかではなく、どの方向に変化したかです。

図(c)のトークン置換実験は最も直接的な検証を示しています。Δlog p によって筛选された重要な判断点において、ごく少量のトークンを置換するだけで、完全な強化学習推論性能を最高効率で再現することが可能であり、その精度はKLダイバージェンスやエントロピーを大幅に上回っています。

この法則を把握したことで、予期せぬ形でエンジニアリング上の新たな道が開かれました。テスト段階において、Δlog p の方向に沿ってこれらの重要な判断を直接増幅させるだけで、モデルは追加の学習を一切必要とせず、数学的問題の解答精度が大幅に向上することが示されました。

Blog:https://qwen-pilot.notion.site/rlvr-secrets

重要なトークンを見つけたことで、チームの視線はより長い推論チェーンへと向けられました。モデルは、この長大な思考プロセスの中でいったい何を行っているのでしょうか?

業界では一般的に、大規模言語モデルが推論過程において自己修正を行い、ある重要な瞬間に閃きを起こす、いわゆる「アハ体験」(Aha Moment)を引き出すことを期待しています。

しかし、チームが観察したのは、全く逆の現象でした。

モデルは第108ステップで正解である3507を既に算出していました。しかしその後、「待って、もう一度確認しよう...」という文を生成し、自ら新たに構築した誤った論理に引きずられ、最終的に15という不正解を出力しました。

チームはこの現象を「自己欺瞞」(Oops Moment)と呼んでいます。つまり、モデル自身が正解を覆してしまうのです。

これは偶然の個例に過ぎないのでしょうか?データは直感よりも遥かに残酷です。膨大なゼロから始まる強化学習の検証データを統計的に分析した結果、以下のことが明らかになりました。

肯定的な「アハ体験」の発生率:約1%

破壊的な「自己欺瞞」の発生率:約3%

訓練期間全体を通じて、「自己欺瞞」が発生する頻度は「アハ体験」のほぼ3倍に達しています。

なぜモデルはこのような「逆方向の最適化」を頻繁に行うのでしょうか?

根本的な原因は、既存の主流強化学習アルゴリズム(標準GRPOなど)の報酬メカニズムが粗雑であり、粗粒度信用分配(Coarse-Grained Credit Assignment)の欠陥が存在することにあります。最終的な答えが正しければ、従来のグローバル報酬メカニズムは、それが重要な論理の展開であったか、意味のない自己疑念を含む文句であったかを問わず、推論チェーン上のすべてのトークンに対して均一な優位性(Uniform Advantage)の報酬を一律に分配します。

モデルはこれにより、局所的な正誤を認識できなくなる。長い推論チェーンの中で、どのステップが正しく、どのステップが自身を誤った方向へ導いているのかを理解できず、最終的に「推論長さの停滞」という性能ボトルネックに陥ってしまう。

image
image

Blog:https://qwen-pilot.notion.site/fipo

上記の3つの洞察をまとめると、一つの結論に収束する。モデルは推論の方法を知っているが、学習メカニズムはどのステップが正しいかを認識していない。報酬は常に最終結果で計算され、すべてのトークンに功績が均等に分け与えられる。

この問題を解決するには、新しいルールが必要だ。功績は、実際に貢献したトークンにのみ算出されなければならない。

これがFIPO(Future-KL Influenced Policy Optimization:未来KL影響受容政策最適化)である。インテリジェント計算チームが提案したこの新アルゴリズムは、「グローバル一元的報酬」から「トークンレベルの精密な信用配分」への飛躍を実現する。

中核メカニズム:トークンレベルの「未来影響力(Future-KL)」を定量化する

従来のアルゴリズムは、軌跡の最終結果に基づく二元フィードバック(ORM:Outcome Reward Model)に依存している。つまり、答えが合っていれば報酬は均等分配される。FIPOのアプローチは異なる。Future-KL推定メカニズムを導入し、推論プロセスにおいて、各トークンがその後の推論軌跡に実際に与える影響をリアルタイムで追跡する。

具体的には、FIPOは各トークンが引き起こす確率シフト(Probability Shift)を追跡する。

現在のトークンから推論チェーンの末尾までのすべてのシフトを累積することで、そのトークンの「未来影響力(Future-KL)」が得られる。

この指標のフィードバックに基づき、アルゴリズムは2つの操作を行う。

正方向強化(Reinforcement):その時、そのトークンがその後の推論に正の推進力を与えた場合、「安定したアンカー」と見なされ、重みが増加する。

逆方向抑制(Suppression):逆に、その時、そのトークンがその後の推論を拖拽(引きずり)ている場合、重みが低下し、誤った思考の蔓延を防ぐ。

エンジニアリング保証:訓練の不安定性を抑制する3つの防衛線

実際の訓練において、制約のないFuture-KLは分布の偏りによる分散を増幅し、勾配爆発や壊滅的な訓練崩壊を招きやすい。FIPOはこれに対し、3つの安定性メカニズム(Stability Mechanisms)を設計し、最適化の滑らかな進行を保証している。

極値フィルタリング(Extreme Value Filtering):アルゴリズムは、極端な更新変動を持つトークンを明示的に除外する。これにより、有効な推論信号を変えずに、訓練における最も主要な不安定性の源を除去する。

ソフト減衰ウィンドウ(Soft Decay Window):因果影響力の減衰効果をシミュレートするために、割引因子を革新的に導入する。このメカニズムは、モデルが局所的な論理的一貫性を優先的に重視し、遠い未来からの累積ノイズを滑らかにフィルタリングすることを促す。

影響力重みクリッピング(Influence Weight Clipping):優勢乗数係数としての影響力重みを厳格に所定の安全範囲内に制限し、極端な確率シフトによる数値崩壊を完全に防止する。

実験結果:長さのボトルネックを突破し、精度の飛躍を実現

この方案の有効性を検証するため、チームは長文論理チェーン(Long-CoT)データに全く接触していないゼロベースのモデルQwen2.5-32B-Base上で評価を行った。

image
image

実験データは、FIPOが複雑な数学的推論の問題解決において画期的な進展を示していることを示しています:

長さの停滞を突破:従来のアルゴリズムでは推論の長さが約4,000トークンで停滞していましたが、FIPOの正の報酬(Positive Reward)により、平均推論長は10,000トークン以上へと引き上げられました。

精度のスケーリングを実現:実験により、推論長の増加と解答の正解率の間には強い正の相関があることが検証されました。つまり、長くなるのは無駄な言葉ではなく、真の深い思考なのです。

image
image

最も挑戦的なAIME 2024の数学ベンチマークテストにおいて、FIPOはベースラインであるDAPOアルゴリズムの50.0%という性能ボトルネックを成功裏に突破し、正解率を58.0%という新たな最高水準まで押し上げました。

これは、FIPOが32B(320億)パラメータという同等の規模であり、外部の長文思考連鎖(Chain-of-Thought)の事前知識を一切用いない「純粋強化学習(Pure RL)」の設定において、o1-miniの性能差を乗り越えた初のオープンソースソリューションであることを意味します。

image
image

さらに、監視指標もFIPOの訓練プロセスが健全であることを裏付けています。滑らかに上昇するポリシーKLダイバージェンス(Policy KL)、常に低水準に保たれた勾配ノルム(Gradient Norm)、そして探索を維持するエントロピー(Entropy)は、モデルが機械的な局所最適解への適合に陥るのではなく、安定して推論空間を拡張していることを示しています。

方向性が正しければ、推論連鎖が長くなるほど精度は高まります。その背後にある鍵は、FIPOの細粒度な信用配分(Credit Assignment)メカニズムにあります。これにより、推論能力の継続的な拡張が可能になっています。

💬 今日のインタラクション

大規模言語モデルの「Oops Moment(うっかりミス)」を経験したことはありますか?正しい答えにたどり着いたはずなのに、自分自身を混乱させてしまったケースなどがありましたら、コメント欄でぜひ共有してください👇(抽選でカスタムグッズをプレゼント)

おすすめ記事

image
image

Wan2.7-Videoは、創造の自由のためにやってきた

image
image

Wan2.7-Image:人物はよりリアルに、文字はより安定し、色はより正確に

WeChatで開いてジャンプ

原文を表示

原创 通义实验室 2026-04-07 17:33 浙江

imageimage

追踪精准Token,破解大模型强化学习的“蝴蝶效应”

蝴蝶效应告诉我们,一次微小的振翅,足以在千里之外引发风暴。

但主流强化学习(RLVR)却对推理链上的每个Token一视同仁——它不知道哪一只“蝴蝶”才是关键。

如何找到它?

通义实验室智能计算团队连发四篇技术博客,前三篇深入强化学习"黑盒",逐步拆解模型推理的底层机制与潜在局限;第四篇正式推出全新算法 FIPO(Future-KL Influenced Policy Optimization),引入 Future-KL 机制,奖励关键Token,解决纯 RL 训练中‘推理长度停滞’难题。在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

image
image

论文:https://arxiv.org/pdf/2603.19835

代码:https://github.com/qwenpilot/FIPO

模型:https://www.modelscope.cn/models/qwenpilot/FIPO_32B

训练曲线:https://swanlab.cn/@QwenPilot/FIPO

image
image

Blog:https://qwen-pilot.notion.site/rlvr-theseus

大模型在经过强化学习(RL)微调后,业界的普遍直觉是:模型的推理机制被大幅"重写"了。为了验证这个假设,智能计算团队从Token级别对模型行为进行了逐字解剖——把训练前后的每一个输出决策拿出来对比。

结果出人意料:超过98%的Token,训练前后几乎没有任何变化。

image
image

从数据中显示,模型输出分布的散度(JS Divergence)在序列的绝大部分位置都趋近于零,只在极少数位置出现脉冲式的突增。换句话说,强化学习并没有为模型凭空创造出新能力,而是呈现出“极度稀疏但至关重要”(Sparse but critical)的特征。

如图(c)所示,RL 的作用更像是一个精准的“变道开关”:只在少数几个关键的逻辑决策点(RL edit)上实施微调干预,就能将模型引导至一条它原本就走得到、但难以全程维持的正确推理路径上。

image
image

Blog:https://qwen-pilot.notion.site/rlvr-direction

既然关键Token极度稀疏——那我们如何在数以万计的输出里把它们精准找出来?

在进一步的探索中,团队发现,行业常用的传统评估指标(如熵 Entropy、KL 散度)存在天然的观测盲区:它们只能衡量模型“发生了多大改变”(幅度),却无法揭示改变的具体形态。

image
image

如图(a)与图(b)所示,在传统指标的观测下,基础模型与 RL 模型的输出分布高度重叠,依然宛如“大海捞针”。

团队为此引入了一个新的观察维度:符号对数概率差(Δlog p)。

我们可以这样理解:Δlog p精准捕捉优化的方向性(Direction),清晰地量化出强化学习究竟是在"鼓励"还是"打压"某个Token的生成——不只是变化了多少,而是往哪个方向变。

图(c)的Token替换实验给出了最直接的验证:用Δlog p筛选出的关键决策点,只需替换极少比例的Token,就能最高效地还原完整的RL推理性能,精准度远超KL散度与熵。

把握这一规律,意外开辟了工程上的新路径:在测试阶段,沿Δlog p方向直接放大这些关键决策,模型无需任何额外训练,数学解题准确率就能显著提升。

image
image

Blog:https://qwen-pilot.notion.site/rlvr-secrets

找到了关键Token,团队把目光转向了更长的推理链——模型在漫长的思考过程中,究竟在做什么?

业界普遍期待大模型能在推理中自我纠错,在某个关键时刻灵光一现,即所谓的"顿悟"(Aha Moment)。

但团队观察到的,是截然相反的现象。

image
image

模型在第108步已经算出了正确答案3507,紧接着却生成了一句"Wait, let me double check...",随后被自己新构造的错误逻辑带偏,最终输出了15。

团队把这种现象称为"自我误导"(Oops Moment)——模型亲手推翻了自己的正确答案。

这是偶然的个例?数据远比直觉残酷,通过对庞大的零基础强化学习验证数据统计,显示:

正向的"Aha Moment"发生率:约1%

破坏性的"Oops Moment"发生率:约3%

在整个训练周期,"自我误导"的发生频率,几乎是"顿悟"的三倍。

image
image

为什么模型会频繁发生这种“反向优化”?

根本原因在于现有主流强化学习算法(如标准 GRPO)的奖励机制过于粗糙,存在粗粒度信用分配(Coarse-Grained Credit Assignment)缺陷:只要最终答案正确,传统的全局奖励机制就把奖励统一分配(Uniform Advantage)给推理链上的每一个Token——无论它是关键的逻辑推进,还是一句毫无意义的自我怀疑。

模型因此无法感知局部的对错。在漫长的推理链里,它不知道哪一步走对了,哪一步正在把自己带偏,最终陷入“推理长度停滞”的性能瓶颈。

image
image

Blog:https://qwen-pilot.notion.site/fipo

上述三大洞察归纳成一个结论:模型知道怎么推理,但训练机制不知道哪一步推对了。奖励永远在终点结算,功劳平摊给所有Token。

要解决这个问题,需要一套新的规则:功劳,必须算给真正做出贡献的Token。

这就是FIPO(Future-KL Influenced Policy Optimization),智能计算团队提出的全新算法,实现从“全局统一奖励”向“Token级精确信用分配”的跨越。

核心机制:量化Token级的"未来影响力(Future-KL)"

传统算法依赖轨迹终点结算的二元结果反馈(ORM)——答案对了,奖励平摊。FIPO 的思路不同:引入 Future-KL 估算机制 ,在推理过程中,实时追踪每一个Token对后续推理轨迹的实际影响。

具体来说,FIPO 追踪的是每个Token引发的概率偏移(Probability Shift):

将从当前Token到推理链末尾的所有偏移累加,就得到该Token的"未来影响力"(Future-KL):

根据该指标的反馈,算法做出两种操作:

正向强化(Reinforcement):当时,该Token对后续推理有正向推动,视为"稳定锚点",增加权重。

反向抑制(Suppression):反之,当时,该Token正在拖累后续推理,降低权重,阻止错误思路蔓延。

工程保障:三道防线抑制训练不稳定性

在实际训练中,未经约束的 Future-KL 会放大分布偏移带来的方差,容易导致梯度爆炸及灾难性的训练崩溃 。FIPO 为此设计了三个稳健性机制(Stability Mechanisms) ,确保了优化的平滑推进:

极端值过滤(Extreme Value Filtering): 算法会显式地屏蔽掉具有极端更新波动的token ,从而在不改变有效推理信号的前提下,消除训练中最主要的不稳定性来源 。

软衰减窗口(Soft Decay Window):创新性地引入了折扣因子()来模拟因果影响力的递减效应 。该机制促使模型优先关注局部的逻辑连贯性,同时平滑地过滤掉来自遥远未来的累积噪声 。

影响力权重裁剪(Influence Weight Clipping):将作为优势乘法系数的影响力权重()严格限制在预设的安全区间内,彻底防止由于极端概率偏移引起的数值崩塌 。

实验结果:突破长度瓶颈,实现准确率跃升

为验证该方案的有效性,团队在完全未接触过长逻辑链(Long-CoT)数据的零基础模型 Qwen2.5-32B-Base 上进行了评估 。

image
image

实验数据展现了 FIPO 在解决复杂数学推理上的突破性进展:

突破长度停滞: 传统算法推理长度停滞在约 4,000 Token;FIPO的正向激励下,将平均推理长度推升至 10,000 Token 以上。

实现准确率缩放: 实验验证了推理长度的增加与解题准确率呈强正相关——变长的不是废话,是真实的深度思考。

image
image

在最具挑战性的 AIME 2024 数学基准测试中,FIPO 成功击穿了基线 DAPO 算法 50.0% 的性能瓶颈,将准确率强势推升至 58.0% 的全新高点。

这标志着 FIPO 成为首个在 32B 同等参数规模且零外部长思维链先验的‘纯强化学习(Pure RL)设定下,成功跨越 o1-mini 性能鸿沟的开源方案。

imageimage此外,监控指标也印证了 FIPO 训练过程的健康度:平滑上升的策略散度(Policy KL) 、持续处于低位的梯度范数(Gradient Norm) 以及保持探索的熵(Entropy) ,共同表明模型在稳定地拓展其推理空间,而非陷入机械的局部拟合 。

只要方向对了,推理链越长,准确率越高。背后的关键,就是 FIPO 的细粒度信用分配机制——它让推理能力的持续扩展成为可能。

💬 今日互动

你有没有遇到过大模型的"Oops Moment"——明明已经想到了正确答案,却又把自己绕回去了?欢迎评论区分享👇(随机掉落定制周边)

推荐阅读

image
image

Wan2.7-Video 为创作自由而来

image
image

Wan2.7-Image:人更真,字更稳,色更准

跳转微信打开

この記事をシェア

関連記事

TLDR AI★42026年6月4日 09:00

継続学習のための「睡眠」アプローチ(24 分読)

Google の研究者らは、モデルが短期間の文脈内知識を長期パラメータに統合する新手法「Sleep」を提案した。この手法は蒸留と再生成を用い、さらに強化学習による「夢見」段階で合成カリキュラムを生成して自己改善を図る。

TLDR AI★42026年6月3日 09:00

ヒルクライミング機械の構築:7 つの新規 MAI モデルを発表(5 分読了)

マイクロソフトは、開発者がモデル重みを調整し日常製品に統合できる 7 つの新規 MAI モデル「MAI」を発表した。これらは強化学習環境を用いたフロンティア・チューニング技術を採用しており、またメイヨー・クリニックとの医療 AI 共同開発も発表した。

The Verge AI★52026年6月2日 01:40

Anthropic が正式に株式公開を申請

AI 企業 Anthropic は、米証券取引委員会(SEC)に対して株式公開(IPO)の申請書を提出し、市場への上場プロセスを開始した。これは OpenAI との競合において先手を打つ重要なマイルストーンである。

ニュース一覧に戻る元記事を読む