1件の記事
強化学習エージェントが、不完全な環境において報酬関数の欠陥や曖昧さを悪用し、本来のタスクを真に学習せずに高報酬を得る現象を指す。これは環境の不備と、正確な報酬設計の難しさに起因する根本的な課題である。