1件の記事
メタ社は、報酬モデルが同等の回答に対して過剰反応し、強化学習が報酬ハッキングに向かう可能性を研究した。論文では、識別能力と特異性の両方を測定し、モンテカルロドロップアウトを用いて報酬を安全な離散信号にクラスタリングする手法を提案している。