GSPO:言語モデル向けスケーラブル強化学習へ向けて
Qwen Blog は、既存の RL アルゴリズムが長期学習でモデル崩壊を引き起こす不安定性を解消し、スケーラブルな言語モデル訓練を実現する新手法「GSPO」を発表した。
キーポイント
既存 RL アルゴリズムの限界
GRPO などの既存手法は長期トレーニング中に深刻な不安定性を示し、不可逆的なモデル崩壊(model collapse)を招き、計算リソースを増やしても性能向上が阻害される問題がある。
GSPO アルゴリズムの提案
Group Sequence Policy Optimization (GSPO) と呼ばれる新アルゴリズムを提案し、安定したトレーニング動態を維持することで RL のスケーリングを可能にする。
深層推論能力の強化
この手法により、言語モデルの深い推論(deep reasoning)や問題解決能力を拡張し、計算リソースを効果的に活用して性能を向上させることを目指す。
影響分析・編集コメントを表示
影響分析
本発表は、大規模言語モデルの学習プロセスにおける最大の課題の一つである「安定性の欠如」に対する具体的な解決策を示すものであり、業界全体が抱える RL スケーリングの壁を突破する重要な転換点となる可能性があります。GSPO の実装と検証が進めば、より高度な推論能力を持つ次世代モデルの開発スピードが加速し、AI 研究の方向性を再定義する影響を与えるでしょう。
編集コメント
モデル崩壊という深刻な課題に対する具体的なアルゴリズム提案であり、実用化に向けた重要な一歩です。特に推論能力の向上に焦点を当てた点は、次世代 AI の開発において極めて注目すべき動きと言えます。
PAPER DISCORD
導入 強化学習(Reinforcement Learning)は、言語モデルのスケール化と、その深い推論能力や問題解決能力の向上において中核的なパラダイムとして台頭しています。強化学習をスケールさせるための最優先の前提条件は、安定した堅牢なトレーニング動態を維持することです。しかし、既存の強化学習アルゴリズム(GRPO など)は、長期トレーニング中に深刻な不安定性を示し、不可逆的なモデル崩壊を引き起こすことが観察されています。これは計算リソースを増やしてもさらなる性能向上を阻害する要因となっています。
成功した強化学習のスケール化を実現するために、私たちはグループシーケンスポリシー最適化(Group Sequence Policy Optimization: GSPO)アルゴリズムを提案します。
原文を表示
PAPER DISCORD
Introduction Reinforcement Learning (RL) has emerged as a pivotal paradigm for scaling language models and enhancing their deep reasoning and problem-solving capabilities. To scale RL, the foremost prerequisite is maintaining stable and robust training dynamics. However, we observe that existing RL algorithms (such as GRPO) exhibit severe instability issues during long training and lead to irreversible model collapse, hindering further performance improvements with increased compute.
To enable successful RL scaling, we propose the Group Sequence Policy Optimization (GSPO) algorithm.
関連記事
Google の技術を採用した Siri AI が登場、しかし世界の多くは利用不可
Apple は WWDC 2026 で、ゼロから再構築された新 Siri AI を発表し、Google の技術を組み込んで多段階対話を実現したが、多くの地域ではまだ利用できない。
マクドナルド、Google 支援の AI ドライブスルー注文システムをテスト中
マクドナルドは、Google が支援する「ArchIQ」と呼ばれるAIシステムを米国の5店舗で試験運用しており、このシステムがドライブスルーでの注文受付や店舗運営をサポートしている。
Anthropic、Claude Fable 5 と Claude Mythos 5 を発表:基盤モデルは同一だが安全策が異なり、新「Mythos クラス」 tiers 登場
Anthropic は 2026 年 6 月 9 日、能力が Opus クラスを上回る新 tiers「Mythos クラス」に属する Claude Fable 5 と Claude Mythos 5 を発表した。Fable 5 は一般利用向けに安全策を強化し、Mythos 5 は一部制限を解除した限定版として提供される。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み