#モンテカルロドロップアウトのAIニュース

1件の記事

報酬モデルは過度に敏感になり得る（22 分読）

メタ社は、報酬モデルが同等の回答に対して過剰反応し、強化学習が報酬ハッキングに向かう可能性を研究した。論文では、識別能力と特異性の両方を測定し、モンテカルロドロップアウトを用いて報酬を安全な離散信号にクラスタリングする手法を提案している。