#reinforcement learning のAIニュース
30件の記事
Krea 2 技術レポート(59 分読了)
Krea は、創造的な探求を目的とした拡張性と表現力に優れた画像生成モデル「Krea 2」を発表した。同社は多段階のトレーニングプロセスと高度なアーキテクチャを採用し、プロンプト拡張機能やスタイル参照システムを通じて、ユーザーがテキストや画像入力から多様な視覚出力を生成できるように制御性を高めた。
プライム・インテレクト、トリリオンパラメータの MoE モデルをアジェンティック RL ワークロードで訓練する「prime-rl 0.6.0」をリリース
Prime Intellect は、長期的なソフトウェアエンジニアリングタスクなどの重いアジェンティック RL ワークロード向けに設計された「prime-rl 0.6.0」を公開した。このフレームワークは、28 台の H200 ノードのみで GLM-5 を訓練し、13 万トークンのシーケンス長でもステップ時間を 5 分以内に抑えることに成功している。
VibeThinker-3B:Qwen2.5-Coder-3Bを基盤にスペクトルから信号へのポストトレーニングパイプラインで構築された 30 億パラメータの密着型推論モデル
中国の新浪微博研究所が開発した「VibeThinker-3B」は、大規模なパラメータ数に依存しない効率的なアプローチを採用し、検証可能なタスクにおいて数百倍サイズのモデルと同等の性能を発揮する 30 億パラメータの推論モデルとして公開された。
リプレイバッファを用いた難問の再検討(8 分読了)
研究者がリプレイバッファという手法を再評価し、AI モデルの学習効率や複雑な問題解決能力を向上させる可能性について議論している。
Amazon SageMaker AI で NVIDIA Isaac Lab を活用し、ロボット強化学習のスケールアップを実現
AWS は、物理的AIの実用化に向け、Amazon SageMaker AI上でNVIDIA Isaac Labを活用することで、複雑なロボットの強化学習を高速化するソリューションを発表した。
Harness-1 の紹介:gpt-oss-20b を基盤とし、状態管理型検索ハネス内で強化学習を用いて訓練された 20B パラメータの検索サブエージェント
イリノイ大学アーバナ・シャンペーン校や UC バークレーなどの研究者チームは、既存の検索エージェントが検索判断と記憶管理を同時に最適化しようとする課題に対し、Harness-1 と呼ばれる 20B パラメータの検索サブエージェントを開発した。このモデルは gpt-oss-20b を基盤とし、状態管理型検索ハネス内で強化学習を用いて訓練されている。
NVIDIA アルパマイヨを用いたクローズドループでの自動運転モデルのポストトレーニング手法
NVIDIA は、アルパマイヨプラットフォームを活用して自動運転モデルをクローズドループ環境でポストトレーニングする具体的な方法を公開した。これにより、シミュレーション上での効率的な学習と評価が可能となる。
NVIDIA Vera CPU が AI ファクトリーにおけるアジェンティックワークロードの新たな基準を設定
NVIDIA は、同社が発表した新 CPU「Vera」について、AI ファクトリーで動作するアジェンティックワークロードのパフォーマンスと効率性を支える新たな業界標準として位置づけたことを発表しました。
[AI ニュース] 創業者とフォワード・デプロイエンジニア
Latent Space は、Anthropic の大規模ニュースを踏まえ、世界有数の AI フォワード・デプロイエンジニアを対象に、OpenAI や Anthropic が推進する同様の枠組みに倣った新トラックの募集を開始した。
多様な推論経路が LLM により良い意思決定を教える
Amazon Science は、大規模言語モデル(LLM)に対し、複数の多様な推論経路を生成・比較する並列推論手法が、モデルの推論能力の限界理解と意思決定の向上に有効であることを示した。
再帰型言語モデルの強化:強化学習による効率的な実装
研究者らは、4B パラメータのモデルに強化学習を適用し、親と子の両方の再帰型言語モデル(RLM)で共有ポリシーを訓練する手法を開発しました。これにより、Claude Sonnet 4.6 と同等のパフォーマンスを維持しつつ、モデルサイズとコストを大幅に削減することに成功しています。
分布の視点から見るSFT、RL、およびオンポリシー蒸留
研究チームは、SFT(教師あり微調整)、RL(強化学習)、オンポリシー蒸留という異なる事後学習手法がモデルの確率分布に与える影響を分析しました。その結果、RL は既存能力の忘却リスクを抑えつつタスク性能を向上させる一方、SFT は外部データへの引き寄せにより既存能力を損なう恐れがあることが示されました。また、オンポリシー蒸留は教師モデルを上回る可能性があり、サンプリングデータの重要性が確認されました。
リスク感受性アライメント手法「RVPO」の提案:報酬分散による正則化
研究者らは、従来の RLHF が特定の目標での高得点が他の重要な失敗を隠す欠点があると指摘し、報酬間の分散を罰する新手法「RVPO」を提案した。これにより、安全性やフォーマットなどのボトルネック課題を克服し、多目的アライメントの信頼性を向上させる。
PORTool:多ツール統合推論における報酬付きツリーを用いた重要度認識型方策最適化手法
研究チームは、大規模言語モデル(LLM)を活用したエージェントの訓練において、成果のみによる報酬では中間ステップの評価が曖昧になる課題を解決するため、重要度を考慮しツール使用能力を強化する新アルゴリズム「PORTool」を発表しました。
推論計算が戦略的資源へ:AI業界の転換点
ノア・ブラウン氏とサム・アルトマン氏は、GPT-5.5の成功を背景に、推論計算が現在過小評価された戦略的資源であり、企業は本格的にAI推論会社へと転換する必要があると指摘した。
Import AI 450:中国の電波戦モデル、トラウマを抱えるLLM、サイバー攻撃のスケーリング則
Jack Clarkは、中国の電波戦用AIモデル、LLMのトラウマ現象、およびサイバー攻撃におけるスケーリング則に関する3つのトピックを紹介している。これらはAI研究の動向を示す注目に値する内容である。
拡散言語モデルのデコード加速のための段階的改良規制
研究者らが、拡散言語モデルのテキスト生成において、トークンごとに安定化速度が異なる問題に対処する段階的改良規制手法を提案した。この手法は、均一な改良規則の代わりに、トークンごとに改良の必要性を動的に評価することで、冗長な処理を削減し、デコード速度を向上させる。
Amazon Novaの強化学習ファインチューニング:フィードバックを通じてAIを教育
Amazonは、汎用AIと特定のビジネスニーズのギャップを埋めるため、Amazon Novaモデルにドメイン知識を組み込む強化学習ファインチューニング手法を開発した。
GPT-OSSのエージェンシック強化学習トレーニングの実現:実践的振り返り
OpenAIが、GPT-OSSモデル向けにエージェンシック強化学習のトレーニング手法を実装し、その実践的な知見を共有した。
2025年の大規模言語モデルの現状:進歩、課題、予測
DeepSeek R1やRLVRから推論時のスケーリング、ベンチマーク、アーキテクチャまで、2025年のLLMの進展と2026年予測を概観。
LLM研究論文:2025年リスト(7月から12月)
有料購読者向けに、2025年後半の注目すべきLLM研究論文リストを紹介する記事。著者が厳選した論文をまとめている。
Seed Prover 1.5:新たなエージェント型アーキテクチャと強化された数学的推論能力
バイトダンスのSeedチームは、新たなエージェント型アーキテクチャを採用した「Seed Prover 1.5」を発表し、2025年のプットナム数学競技会の11問を9時間で解決するなど、数学的推論能力が大幅に向上したことを示した。
DeepSeek V3からV3.2へ:アーキテクチャ、スパースアテンション、RLアップデート
DeepSeekの主力オープンウェイトモデルが、アーキテクチャの改良、スパースアテンションの導入、強化学習による更新を通じて進化した過程を解説。
「TD学習を用いない強化学習」
筆者は、従来のTD学習に依存せず「分割統治」パラダイムに基づく強化学習アルゴリズムを提案し、長期タスクへのスケーラビリティを実現した。
GSPO:言語モデル向けスケーラブル強化学習へ向けて
著者らは、大規模言語モデルの強化学習で既存手法が長期訓練時に崩壊する問題を解決するため、安定なスケーラブル強化学習手法「GSPO」を提案する。
LLM研究論文:2025年リスト(1月〜6月)
Sebastian Raschka博士は、2025年1月から6月にかけて発表された200本以上のLLM研究論文をテーマ別に整理したリストを公開している。
DeepSeek、再帰的証明探索と新ベンチマークでニューラル定理証明を進展させる「DeepSeek-Prover-V2」を発表
DeepSeek AIは、Lean 4環境での形式定理証明専用大規模言語モデル「DeepSeek-Prover-V2」を公開した。同モデルは再帰的定理証明パイプラインを採用し、DeepSeek-V3から高品質な初期データを生成することで最先端の性能を実現した。
GRPOは10倍効率的か?Kwai AIのSRPOがYesを示唆
Kwai AIは、大規模強化学習を用いた推論モデルの効率化手法「SRPO」を発表した。これはOpenAI o1やDeepSeek-R1の背景にある技術に関連し、GRPOを最大10倍効率的にできる可能性を示唆している。
DeepSeek、次世代R2モデルを示唆しSPCTを用いた推論スケーリングの新手法を公開
DeepSeek AIは、一般報酬モデルの推論段階でのスケーラビリティを向上させる新技術「SPCT」に関する論文を発表した。同時に、次世代モデルR2の登場を示唆し、AI界隈で注目を集めている。
強化学習における報酬ハッキング
強化学習エージェントが、不完全な環境において報酬関数の欠陥や曖昧さを悪用し、本来のタスクを真に学習せずに高報酬を得る現象を指す。これは環境の不備と、正確な報酬設計の難しさに起因する根本的な課題である。