2件の記事
MIT の研究者らが発表した研究で、不完全な情報下でのポーカーや入札競争などのシナリオにおいて、特定の状況に特化した専門家よりも、幅広い状況に対応できる一般化された戦略の方が勝利する可能性を示した。
研究者らは、政策勾配アルゴリズムが訓練中にエントロピーを減少させ、探索の多様性を制限する問題を指摘し、エントロピー保存による多様な解決策の促進を提案している。