#強化学習のAIニュース

64件の記事

予測的逆動力学モデルによる模倣学習の再考

予測的逆動力学モデルは、次の状態を予測することで曖昧さを減らし、少ないデモンストレーションで標準的な行動模倣を上回る性能を発揮する理由を探る研究。

Microsoft Research·2月6日

AIエージェント向け、アジェンティック・ベリファイアを用いたマルチモーダル強化学習

Microsoft Researchチームは、医療画像レポート生成をスケーリングする「UniRG」を開発し、マルチモーダル強化学習とエージェント型検証機能を用いて精度を向上させた。

Microsoft Research·1月21日·★★★★

強化学習によるマルチターンAIエージェントのカスタマイズ

既存の環境シミュレータと検証可能な真実に基づく報酬関数を活用することで、小規模モデルと訓練データでもタスク成功率を向上できる。

Amazon Science·1月14日·★★★★

信頼性の高いAIエージェント構築における見えない作業

強化学習環境でAIエージェントを訓練し、顧客リクエストを実行するための低レベルタスクを連鎖させる信頼性構築のプロセスについて。

Amazon Science·1月8日·★★★★

二足歩行ロボットを作ってみよう（前編）

二足歩行ロボットの制作プロセスを解説。ハードウェア設計から強化学習による歩容改善、模倣学習の応用まで、実践的な開発手法を紹介。

ABEJA Tech Blog·12月25日

今さらながらDeepSeek-R1の論文を読んでみた

中国DeepSeek社が公開した軽量で高品質なLLMについて、蒸留手法を用いた軽量化の技術的観点から考察。高価なGPUが不要で動かせる点が特徴。

ABEJA Tech Blog·12月24日·★★★★

Agent Lightning：AIエージェントに強化学習をコード書き換えなしで追加

Microsoft Researchは「Agent Lightning」を開発し、AIエージェントに強化学習をコード書き換えなしで適用する手法を提供した。

Microsoft Research·12月12日·★★★★

Seed Research｜GR-RL発表：VLAの細かい操作のボトルネックを突破し、初めて実機での強化学習による靴紐結びを実現

Seed ResearchがGR-RLを発表し、視覚言語行動モデル（VLA）が実環境で対話的に学習できるようにし、初めて実機での強化学習による靴紐結びを実現した。

字节跳动Seed·12月2日·★★★★

オン・ポリシー蒸留

ケビン・ルーらによる、思考機械におけるオン・ポリシー蒸留の研究についての記事。

Thinking Machines Lab·10月27日·★★★★

Qwen-MT：速度とスマート翻訳の融合

Qwen開発チームは、Qwen API経由で「qwen-mt-turbo」を公開した。同モデルはQwen3基盤に92言語分の翻訳データと強化学習を統合し、翻訳精度と流暢性を大幅に向上させた。

Qwen Blog·7月24日

MIT研究者が「SEAL」を発表：自己改善型AIへの新たな一歩

MITは「SEAL（Self-Adapting LLMs）」という新フレームワークを発表した。これは大規模言語モデル（LLM）が自身の重みを更新できる仕組みであり、自己進化型AIの実現に向けた重要な進展と見なされている。

Synced Review·6月16日·★★★★

LLM推論のための強化学習の現状

OpenAIがGPT-4.5を、MetaがLlama 4をリリースしたが、従来型モデルのため反応は控えめだった。一方、xAIやAnthropicは強化学習による推論機能を強化している。

Sebastian Raschka·4月19日·★★★★

スクラッチからの推論入門：第1章

著者がLLMにおける推論の仕組みについての新著を執筆中であり、購読者向けに第1章を公開した。本章ではLLMの推論の基本概念と推論時サンプリングなどの手法を概説している。

Sebastian Raschka·3月29日

交通流円滑化のための強化学習の拡張：100台の自動運転車による高速道路展開

強化学習を用いて100台の自動運転車を高速道路に展開し、交通流の円滑化を実現する研究についての記事です。

Berkeley AI Research·3月25日·★★★★

← 前へ2 / 2

#強化学習 のAIニュース