1件の記事
AWS は、大規模言語モデルの学習における報酬信号の信頼性問題を解決するため、SageMaker AI で動作する検証可能な報酬に基づく強化学習手法「GRPO」を紹介した。この手法は、隠れたバイアスや曖昧な成功基準による学習の破綻を防ぎ、モデルがより正確に学習・判断できるようにする技術である。