#カリキュラム学習のAIニュース

1件の記事

ゴルディロックスRL：推論のためのスパース報酬から脱却するためのタスク難易度調整

研究者らは、大規模言語モデルの推論能力を強化するための新しい教師駆動型データサンプリング手法「ゴルディロックス」を提案した。この手法は、タスクの難易度を適切に調整することで、従来の強化学習におけるスパース報酬問題を解決し、サンプル効率を向上させる。