#強化学習(rl) のAIニュース
4件の記事
分布認識型推論特定デコーディングでRLロールアウトを最大50%高速化
強化学習のポストトレーニングにおけるボトルネック「ロールアウト」を、適応型推論特定デコーディング(DAS)により最大50%高速化する。この手法は報酬品質の低下なしに処理速度を向上させる。
Together AI Blog·4月24日·★★★★
「AIモデルに『わからない』と言う方法を教える」
MIT CSAILの研究者は、AIモデルの過剰な自信の原因を特定し、不確実性を表現するよう学習させる手法を開発した。
MIT ML News·4月23日·★★★★
Aurora:推論効率を向上させるオープンソース強化学習フレームワーク
Auroraは、推論効率を1.25倍向上させるオープンソースの強化学習フレームワークです。これは、推論を単なるオフライン設定から、リクエストごとに自己改善するシステムへと変革します。
Together AI Blog·3月31日·★★★★
OpenClaw-RL、AIエージェントを「会話だけで」訓練、全ての返答を学習信号に変換
プリンストン大学の研究者が開発したOpenClaw-RLフレームワークは、チャットや端末コマンド、GUI操作からのリアルタイム信号を継続的な学習データに変換し、AIエージェントの訓練を可能にする。数十回のインタラクションで顕著な改善が見られるという。
The Decoder·3月15日·★★★★