#強化学習(rl) のAIニュース

4件の記事

分布認識型推論特定デコーディングでRLロールアウトを最大50%高速化

強化学習のポストトレーニングにおけるボトルネック「ロールアウト」を、適応型推論特定デコーディング（DAS）により最大50%高速化する。この手法は報酬品質の低下なしに処理速度を向上させる。

Together AI Blog·4月24日·★★★★

「AIモデルに『わからない』と言う方法を教える」

MIT CSAILの研究者は、AIモデルの過剰な自信の原因を特定し、不確実性を表現するよう学習させる手法を開発した。

MIT ML News·4月23日·★★★★

Aurora：推論効率を向上させるオープンソース強化学習フレームワーク

Auroraは、推論効率を1.25倍向上させるオープンソースの強化学習フレームワークです。これは、推論を単なるオフライン設定から、リクエストごとに自己改善するシステムへと変革します。

Together AI Blog·3月31日·★★★★

OpenClaw-RL、AIエージェントを「会話だけで」訓練、全ての返答を学習信号に変換

プリンストン大学の研究者が開発したOpenClaw-RLフレームワークは、チャットや端末コマンド、GUI操作からのリアルタイム信号を継続的な学習データに変換し、AIエージェントの訓練を可能にする。数十回のインタラクションで顕著な改善が見られるという。

The Decoder·3月15日·★★★★