#強化学習 のAIニュース
64件の記事
予測的逆動力学モデルによる模倣学習の再考
予測的逆動力学モデルは、次の状態を予測することで曖昧さを減らし、少ないデモンストレーションで標準的な行動模倣を上回る性能を発揮する理由を探る研究。
AIエージェント向け、アジェンティック・ベリファイアを用いたマルチモーダル強化学習
Microsoft Researchチームは、医療画像レポート生成をスケーリングする「UniRG」を開発し、マルチモーダル強化学習とエージェント型検証機能を用いて精度を向上させた。
強化学習によるマルチターンAIエージェントのカスタマイズ
既存の環境シミュレータと検証可能な真実に基づく報酬関数を活用することで、小規模モデルと訓練データでもタスク成功率を向上できる。
信頼性の高いAIエージェント構築における見えない作業
強化学習環境でAIエージェントを訓練し、顧客リクエストを実行するための低レベルタスクを連鎖させる信頼性構築のプロセスについて。
二足歩行ロボットを作ってみよう(前編)
二足歩行ロボットの制作プロセスを解説。ハードウェア設計から強化学習による歩容改善、模倣学習の応用まで、実践的な開発手法を紹介。
今さらながらDeepSeek-R1の論文を読んでみた
中国DeepSeek社が公開した軽量で高品質なLLMについて、蒸留手法を用いた軽量化の技術的観点から考察。高価なGPUが不要で動かせる点が特徴。
Agent Lightning:AIエージェントに強化学習をコード書き換えなしで追加
Microsoft Researchは「Agent Lightning」を開発し、AIエージェントに強化学習をコード書き換えなしで適用する手法を提供した。
Seed Research|GR-RL発表:VLAの細かい操作のボトルネックを突破し、初めて実機での強化学習による靴紐結びを実現
Seed ResearchがGR-RLを発表し、視覚言語行動モデル(VLA)が実環境で対話的に学習できるようにし、初めて実機での強化学習による靴紐結びを実現した。
オン・ポリシー蒸留
ケビン・ルーらによる、思考機械におけるオン・ポリシー蒸留の研究についての記事。
Qwen-MT:速度とスマート翻訳の融合
Qwen開発チームは、Qwen API経由で「qwen-mt-turbo」を公開した。同モデルはQwen3基盤に92言語分の翻訳データと強化学習を統合し、翻訳精度と流暢性を大幅に向上させた。
MIT研究者が「SEAL」を発表:自己改善型AIへの新たな一歩
MITは「SEAL(Self-Adapting LLMs)」という新フレームワークを発表した。これは大規模言語モデル(LLM)が自身の重みを更新できる仕組みであり、自己進化型AIの実現に向けた重要な進展と見なされている。
LLM推論のための強化学習の現状
OpenAIがGPT-4.5を、MetaがLlama 4をリリースしたが、従来型モデルのため反応は控えめだった。一方、xAIやAnthropicは強化学習による推論機能を強化している。
スクラッチからの推論入門:第1章
著者がLLMにおける推論の仕組みについての新著を執筆中であり、購読者向けに第1章を公開した。本章ではLLMの推論の基本概念と推論時サンプリングなどの手法を概説している。
交通流円滑化のための強化学習の拡張:100台の自動運転車による高速道路展開
強化学習を用いて100台の自動運転車を高速道路に展開し、交通流の円滑化を実現する研究についての記事です。