#reinforcement learning のAIニュース

30件の記事

Krea 2 技術レポート（59 分読了）

Krea は、創造的な探求を目的とした拡張性と表現力に優れた画像生成モデル「Krea 2」を発表した。同社は多段階のトレーニングプロセスと高度なアーキテクチャを採用し、プロンプト拡張機能やスタイル参照システムを通じて、ユーザーがテキストや画像入力から多様な視覚出力を生成できるように制御性を高めた。

TLDR AI·6月24日·★★★★

プライム・インテレクト、トリリオンパラメータの MoE モデルをアジェンティック RL ワークロードで訓練する「prime-rl 0.6.0」をリリース

Prime Intellect は、長期的なソフトウェアエンジニアリングタスクなどの重いアジェンティック RL ワークロード向けに設計された「prime-rl 0.6.0」を公開した。このフレームワークは、28 台の H200 ノードのみで GLM-5 を訓練し、13 万トークンのシーケンス長でもステップ時間を 5 分以内に抑えることに成功している。

MarkTechPost·6月23日·★★★★

VibeThinker-3B：Qwen2.5-Coder-3Bを基盤にスペクトルから信号へのポストトレーニングパイプラインで構築された 30 億パラメータの密着型推論モデル

中国の新浪微博研究所が開発した「VibeThinker-3B」は、大規模なパラメータ数に依存しない効率的なアプローチを採用し、検証可能なタスクにおいて数百倍サイズのモデルと同等の性能を発揮する 30 億パラメータの推論モデルとして公開された。

MarkTechPost·6月20日·★★★★

リプレイバッファを用いた難問の再検討（8 分読了）

研究者がリプレイバッファという手法を再評価し、AI モデルの学習効率や複雑な問題解決能力を向上させる可能性について議論している。

TLDR AI·6月19日

Amazon SageMaker AI で NVIDIA Isaac Lab を活用し、ロボット強化学習のスケールアップを実現

AWS は、物理的AIの実用化に向け、Amazon SageMaker AI上でNVIDIA Isaac Labを活用することで、複雑なロボットの強化学習を高速化するソリューションを発表した。

AWS Machine Learning Blog·6月10日·★★★★

Harness-1 の紹介：gpt-oss-20b を基盤とし、状態管理型検索ハネス内で強化学習を用いて訓練された 20B パラメータの検索サブエージェント

イリノイ大学アーバナ・シャンペーン校や UC バークレーなどの研究者チームは、既存の検索エージェントが検索判断と記憶管理を同時に最適化しようとする課題に対し、Harness-1 と呼ばれる 20B パラメータの検索サブエージェントを開発した。このモデルは gpt-oss-20b を基盤とし、状態管理型検索ハネス内で強化学習を用いて訓練されている。

MarkTechPost·6月7日·★★★★

NVIDIA アルパマイヨを用いたクローズドループでの自動運転モデルのポストトレーニング手法

NVIDIA は、アルパマイヨプラットフォームを活用して自動運転モデルをクローズドループ環境でポストトレーニングする具体的な方法を公開した。これにより、シミュレーション上での効率的な学習と評価が可能となる。

NVIDIA Developer Blog·6月1日·★★★★

NVIDIA Vera CPU が AI ファクトリーにおけるアジェンティックワークロードの新たな基準を設定

NVIDIA は、同社が発表した新 CPU「Vera」について、AI ファクトリーで動作するアジェンティックワークロードのパフォーマンスと効率性を支える新たな業界標準として位置づけたことを発表しました。

NVIDIA Developer Blog·6月1日·★★★★

[AI ニュース] 創業者とフォワード・デプロイエンジニア

Latent Space は、Anthropic の大規模ニュースを踏まえ、世界有数の AI フォワード・デプロイエンジニアを対象に、OpenAI や Anthropic が推進する同様の枠組みに倣った新トラックの募集を開始した。

Latent Space·5月30日·★★★★

多様な推論経路が LLM により良い意思決定を教える

Amazon Science は、大規模言語モデル（LLM）に対し、複数の多様な推論経路を生成・比較する並列推論手法が、モデルの推論能力の限界理解と意思決定の向上に有効であることを示した。

Amazon Science·5月27日·★★★★

再帰型言語モデルの強化：強化学習による効率的な実装

研究者らは、4B パラメータのモデルに強化学習を適用し、親と子の両方の再帰型言語モデル（RLM）で共有ポリシーを訓練する手法を開発しました。これにより、Claude Sonnet 4.6 と同等のパフォーマンスを維持しつつ、モデルサイズとコストを大幅に削減することに成功しています。

TLDR AI·5月13日·★★★★

研究チームは、SFT（教師あり微調整）、RL（強化学習）、オンポリシー蒸留という異なる事後学習手法がモデルの確率分布に与える影響を分析しました。その結果、RL は既存能力の忘却リスクを抑えつつタスク性能を向上させる一方、SFT は外部データへの引き寄せにより既存能力を損なう恐れがあることが示されました。また、オンポリシー蒸留は教師モデルを上回る可能性があり、サンプリングデータの重要性が確認されました。

TLDR AI·5月11日·★★★★