#強化学習のAIニュース

64件の記事

General Intuition の 23 億ドル投資：ビデオゲームが現実世界の AI エージェントを訓練できるという賭け

General Intuition は、ビデオゲーム環境を活用して現実世界で動作する AI エージェントを訓練する技術に 23 億ドルを投資すると発表した。同社は、ゲーム内での学習が実社会のタスク遂行能力に転用可能であると確信している。

TechCrunch AI·6月26日·★★★★

Algomatic がノーコード環境「LeLab」で模倣学習を開始

Algomatic のエンジニアである Yusuke 氏が、低コストロボットアーム SO-101 を用いたシミュレーションと実機実験を通じて、同社が提供するノーコードプラットフォーム「LeLab」での模倣学習の取り組みを紹介している。

Algomatic Tech Blog·6月25日

ゲーム理論では、一般化された戦略が専門化された戦略に勝る場合がある

MIT の研究者らが発表した研究で、不完全な情報下でのポーカーや入札競争などのシナリオにおいて、特定の状況に特化した専門家よりも、幅広い状況に対応できる一般化された戦略の方が勝利する可能性を示した。

MIT ML News·6月18日·★★★★

開発者向け初のモデル「North Mini Code」の発表：Cohere が Hugging Face で紹介

AI 企業 Cohere は、Hugging Face Blog を通じて、開発者向けの専用モデルとして初めて「North Mini Code」を発表した。この新モデルは、コード生成や技術的タスクの支援を目的としている。

Hugging Face Blog·6月10日·★★★★

On-policy のはずが Off-policy になる：LLM 強化学習の rollout mismatchと対策(rollout correction)

ABEJA Tech Blog·6月8日·★★★★

継続学習のための「睡眠」アプローチ（24 分読）

Google の研究者らは、モデルが短期間の文脈内知識を長期パラメータに統合する新手法「Sleep」を提案した。この手法は蒸留と再生成を用い、さらに強化学習による「夢見」段階で合成カリキュラムを生成して自己改善を図る。

TLDR AI·6月4日·★★★★

ヒルクライミング機械の構築：7 つの新規 MAI モデルを発表（5 分読了）

マイクロソフトは、開発者がモデル重みを調整し日常製品に統合できる 7 つの新規 MAI モデル「MAI」を発表した。これらは強化学習環境を用いたフロンティア・チューニング技術を採用しており、またメイヨー・クリニックとの医療 AI 共同開発も発表した。

TLDR AI·6月3日·★★★★

3D プリンタ対応の人間型ロボット脚がロボティクス実験を加速

Hugging Face が公開した約 2,500 ドルの安価な 3D プリント製人間型ロボット脚により、研究者は実世界での AI ロボットソフトウェアテストと訓練を容易に行えるようになった。

Ars Technica AI·5月27日·★★★★

BalCapRL：強化学習に基づく多モーダル大規模言語モデルの画像キャプション作成のためのバランス型フレームワーク

研究者らは、既存の評価指標が特定の品質に偏りトレードオフを生む課題を解決するため、詳細かつ正確な画像キャプション生成を実現する新しい強化学習ベースのバランス型フレームワーク「BalCapRL」を発表した。

Apple Machine Learning·5月11日·★★★★

報酬信号の課題克服：SageMaker AI 上の GRPO を用いた検証可能報酬型強化学習

AWS は、大規模言語モデルの学習における報酬信号の信頼性問題を解決するため、SageMaker AI で動作する検証可能な報酬に基づく強化学習手法「GRPO」を紹介した。この手法は、隠れたバイアスや曖昧な成功基準による学習の破綻を防ぎ、モデルがより正確に学習・判断できるようにする技術である。

AWS Machine Learning Blog·5月8日·★★★★

Google DeepMind、AI モデル検証に EVE Online と提携

Google の AI 部門 DeepMind は、人気 SF シミュレーションゲーム『EVE Online』の開発元 CCP Games に少数株を取得し、複雑で動的なプレイヤー駆動システムにおける知能の研究を目的としたパートナーシップを開始した。

Ars Technica AI·5月7日·★★★★

人間と機械が遊ぶゲーム：戦略的思考を解明しAIを前進させる

イタリア出身の研究者ガブリエーレ・ファリーナは、幼少期から数学や科学に没頭し、14 歳で戦略的思考の研究に焦点を当てた。この研究は AI の発展に重要な役割を果たす。

MIT ML News·5月6日

Granite 4.1 LLMs の構築方法（13 分読了）

IBM は、15 トリオントークンで学習した Granite 4.1 系列のオープンソース大規模言語モデルを公開しました。このシリーズは 3B、8B、30B パラメータの Dense アーキテクチャを採用し、特に 8B モデルは多段階強化学習により前世代の 32B モデルに匹敵する性能を実現しています。

TLDR AI·4月30日·★★★★

自然言語によるエージェントのオーケストレーション学習：Conductor モデル

研究者らは強化学習を用いて Conductor モデルを訓練し、この AI が複数の大規模言語モデルに対して効果的なカスタム指示を自然言語で自動生成する能力を獲得したことを発見しました。これにより、人間が行っていたプロンプトエンジニアリングの役割を AI が代替可能になることが示されました。

Sakana AI·4月27日·★★★★

メタ、従業員のマウス・キーボード操作を追跡してAIエージェントの学習を行う予定

メタは、米国内の従業員のマウス操作やキー入力、スクリーンショットを追跡するソフトウェアを導入し、高品質な学習データを生成して次世代AIエージェントの訓練に活用すると報じられている。

Ars Technica AI·4月22日·★★★★

私のエージェントがまたツールを誤操作した！

通義实验室はAgentic AI向け自動最適化エンジン「AgentScope Tuner」を開発した。同エンジンはエージェントのAPI誤操作やルール変更を自動調整し、静的デプロイメントの問題を解決する。

通义大模型·4月21日

エンドツーエンドFP8精度による高スループット強化学習トレーニングの実行

NVIDIAは、大規模言語モデルの複雑な推論支援のため、エンドツーエンドFP8精度を活用した高スループット強化学習トレーニング手法を提供する。

NVIDIA Developer Blog·4月21日·★★★★

長期ホライズンにおけるワールドモデルのための勾配ベース計画手法

「GRASP」を開発した研究チームは、勾配ベースの計画手法により学習済みワールドモデルを用い、長期ホライズンでの意思決定と敵対的ロバスト性を向上させた。

Berkeley AI Research·4月20日·★★★★

Ecom-RLVE：Eコマース対話エージェントのための適応可能な検証環境

研究者がEcom-RLVEを発表した。これはEコマース対話エージェントのための適応可能な検証環境であり、AIエージェントの性能評価と改善を目的としている。

Hugging Face Blog·4月16日·★★★★

MaxText、単一ホストTPUでのSFTとRLのポストトレーニング機能を拡張

MaxTextが、単一ホストTPU構成で教師ありファインチューニング（SFT）と強化学習（RL）の新サポートを導入し、JAXとTunixライブラリを活用して高性能なモデル改良を可能にした。

Google Developers AI·4月16日

AWS Lambdaを使用したAmazon Novaモデルカスタマイズのための効果的な報酬関数の構築方法

AWSは、AWS Lambdaのサーバーレスアーキテクチャを活用して、Amazon Novaモデルのカスタマイズに効果的な報酬関数を構築する方法を説明している。

AWS Machine Learning Blog·4月14日

研究者が発見：AIモデルは助けを求めるより推測することを選ぶ

研究者がProactiveBenchで22のマルチモーダル言語モデルをテストした結果、視覚情報が欠けている場合に助けを求めるモデルはほぼなく、単純な強化学習アプローチが修正の可能性を示唆している。

The Decoder·4月11日

今日の動向：AnthropicのMythos、OpenAIの制限付きサイバーモデル、LangChainのDeep Agents、およびサンドボックス基盤の拡大

AnthropicとOpenAIの新モデル議論、LangChainが公開したエージェントアーキテクチャ、そして強化学習用サンドボックスのインフラ整備状況について報じています。

Smol AI News·4月9日

FIPO：2%のトークンを精密追跡し、大規模モデルの推論ボトルネックを突破！

通義実験室の智能計算チームは、大規模言語モデルの推論チェーンにおいて重要な2%のトークンを特定・最適化する新アルゴリズムFIPOを発表した。これにより、従来の強化学習が全てのトークンを均等に扱う問題を解決し、推論効率を向上させた。

通义大模型·4月7日·★★★★

アリババのQwenチーム、新アルゴリズムでAIモデルの思考を深化

アリババのQwenチームは、各ステップの重要度に応じて報酬を重み付けする新アルゴリズムを開発し、AIモデルの思考プロセスを倍増させた。

The Decoder·4月5日·★★★★

GLM-5V-Turbo発表：マルチモーダルコーディング基盤モデル

智譜がGLM-5V-Turboをリリースした。同モデルはマルチモーダルコーディング基盤モデルである。

智谱·4月2日·★★★★

異種嗜好アラインメントのためのパーソナライズドグループ相対ポリシー最適化

研究者らは、大規模言語モデル（LLM）が多様な個人嗜好に適合できない問題に対処するため、パーソナライズドグループ相対ポリシー最適化（P-GRPO）を提案した。この手法は、従来のGRPOがグループ内でサンプルを交換可能と仮定する制限を克服し、異なるユーザーグループの嗜好に個別に適合するポリシーを学習する。

Apple Machine Learning·4月2日·★★★★

TRL v1.0：分野の前提が崩れても機能するポストトレーニングライブラリ

Hugging Faceが、AIモデルのポストトレーニング用ライブラリ「TRL v1.0」をリリースした。このライブラリは、研究分野の前提が変化しても柔軟に対応できる設計となっている。

Hugging Face Blog·3月31日·★★★★

エントロピー保存強化学習

研究者らは、政策勾配アルゴリズムが訓練中にエントロピーを減少させ、探索の多様性を制限する問題を指摘し、エントロピー保存による多様な解決策の促進を提案している。

Apple Machine Learning·3月30日·★★★★

Composer 2に関する技術レポート

Composer 2が、依存関係管理ツールとして、パフォーマンス向上や新機能を提供する技術的詳細を公開した。

Cursor Blog·3月27日·★★★★

リアルタイム強化学習によるComposerの改善

Meta社がComposerにオンライン強化学習を適用し、本番環境でモデルチェックポイントを提供し、実際のユーザーインタラクションを報酬信号として使用して、1日に複数回改善されたチェックポイントをリリースした。

Cursor Blog·3月26日

OpenClaw-RLで学ぶAgentic RLの報酬設計

LayerXの機械学習エンジニア宇都氏が、自己進化型AIエージェントの研究動向を紹介し、OpenClaw-RLを用いたエージェント強化学習の報酬設計について解説している。

LayerX Tech Blog·3月24日

PrismAudio：音声と映像の同期、音響効果の追従

通義実験室が2026年3月24日に、AI音響効果ツール「PrismAudio」をオープンソースで公開した。このツールは、映像の内容に合った音声を自動生成し、意味の一貫性、タイミングの同期、美的品質の3点を同時に満たすことを目指している。

通义大模型·3月24日·★★★★★

RLax、JAX、Haiku、Optaxを使用してスクラッチからDeep Q-Learning（DQN）を実装し、CartPole強化学習エージェントを訓練する

Google DeepMindが開発した研究志向ライブラリRLaxとJAX、Haiku、Optaxを組み合わせ、Deep Q-Learning（DQN）エージェントを構築し、CartPole環境を解決する強化学習エージェントを実装するチュートリアルである。

MarkTechPost·3月23日

NVIDIAがNemotron-Cascade 2をリリース：3Bの活性化パラメータを持つオープンな30B MoEモデルで、推論能力とエージェント機能を強化

NVIDIAは、30BのMixture-of-Expertsモデルで3Bの活性化パラメータを持つNemotron-Cascade 2を公開した。このモデルは「知能密度」を最大化し、フロンティアモデルよりも少ないパラメータで高度な推論能力を提供し、2025年の国際数学オリンピックなどでゴールドメダルレベルの性能を達成した。

MarkTechPost·3月21日·★★★★