ゲーム理論では、一般化された戦略が専門化された戦略に勝る場合がある
MIT の研究者らが、不完全情報ゲームにおいて従来の理論ベースアルゴリズムより汎用的なポリシー勾配法が優位に立つ場合があるという新たな知見を発表した。
キーポイント
既存仮説の再検証
従来、不完全情報ゲームではゲーム理論に基づくアルゴリズムが汎用手法(ポリシー勾配法)より優位と信じられてきたが、この前提に疑問を投げかける研究結果となった。
マルチエージェント環境の複雑性
2 人対戦のようなマルチエージェント設定では、相手の行動により最適解への方向性が絶えず変化するため、分析が困難になる一方で、ポリシー勾配法の適応力が注目された。
一般化の勝利
特定のゲーム理論に縛られない「一般化(generalists)」なアプローチが、専門的な戦略を持つ「特化型(specialists)」アルゴリズムを上回る可能性を示唆している。
影響分析・編集コメントを表示
影響分析
この研究成果は、強化学習におけるアルゴリズム選択のパラダイムシフトを示唆しており、特に不確実性の高い環境や対人交渉を模した AI 開発において、汎用的な学習手法の再評価を促す重要な転換点となります。これにより、複雑なマルチエージェントシステムの実装において、より柔軟で適応力の高いアプローチが採用される可能性が高まります。
編集コメント
「専門家が勝つ」という常識を覆す、強化学習分野における重要な逆説的发现です。実社会の複雑な交渉や対戦シナリオにおける AI の振る舞い方を理解する上で、極めて示唆に富む内容と言えます。
ポーカーを単一の対戦相手と行う場合でも、別の見込み購入者と住宅購入の入札競争に巻き込まれる場合でも、あなたは不完全情報という条件下で行動しています。ポーカーゲームでは自分が持っているカードが何であるかを知っており、また家の提示価格よりいくら上なら支払えるかも知っていますが、カードゲームでの相手の手札や、もう一人の住宅購入者がどこまで出せるかは知りません。
MIT の研究者らが共著した論文は、リオデジャネイロで開催された 4 月の国際学習表現会議で発表されましたが、これらの状況で具体的に何をすべきかを教えるものではありません。しかし、この論文は、2 つの競技者が「ゼロサム」競争で対峙し、一方のプレイヤーの利益が他方のプレイヤーの損失を意味する、いわゆる不完全情報ゲームに関する新たな洞察を提供しています。
MIT の研究プロジェクトには、電気工学・コンピュータサイエンス学部(EECS)および情報意思決定システム研究所(LIDS)の博士課程学生である Sobhan Mohammadpour 氏と、EECS の准教授であり LIDS の主要研究者である Gabriele Farina 氏が参加しています。その他の共著者には、テキサス大学オースティン校(UT)の Max Rudolph 氏、カリフォルニア大学バークレー校(UCB)の Nathan Lichtlé 氏および Alexandre Bayen 氏、カーネギーメロン大学(CMU)の J. Zico Kolter 氏、UT の Amy X. Zhang 氏('11, MNG '12)、ニューヨーク大学の Eugene Vinitsky 氏、そして CMU の Samuel Sokota 氏が含まれています。
新しい研究の焦点は、不完全情報ゲームに参加するようにニューラルネットワークを訓練するために使用できるアルゴリズムにあります。この分野では長年信じられてきた仮説として、ゲーム理論の原理に基づいたアルゴリズムが、1990 年代に意思決定のために導入された汎用型のアルゴリズムであるポリシー勾配法(policy gradient methods)を、この設定において明確に凌駕すると考えられていました。この文脈における「ポリシー」とは基本的に戦略を意味し、「勾配」は最も大きな変化の方向、例えば丘の頂上(または底)へと至る経路を指します。ポリシー勾配法は、ニューラルネットワークを訓練して特定の目標(比喩的に言えば山頂に到達することなど)に向かって小さな連続的なステップで意思決定を行わせるために使用されており、エージェントが意図した目的地により近づくように、その過程で継続的な調整とコース修正が行われます。
ポリシー勾配法が考案された 1990 年代初期には戦略ゲームは当初の議題に含まれていませんでしたが、新しい論文の著者たちは、この種のアルゴリズムが二人用ゲームにおいてどのように機能するかについて疑問を抱きました。ファリーナ氏によると、これらの手法はマルチエージェント設定では分析がより複雑になります。「改善できる方向はまだ存在しますが、他のプレイヤーの行動によって、その方向はゲームの進行中に絶えず変化します。そして、その変化は急速に起こり得るのです。」
「この設定においては、ゲーム理論に特化したアルゴリズムが適切なアプローチであることはほぼ当然視されていた」とソコタは語る。「私たちの研究では、ポリシー勾配法がこれらの特化型アルゴリズムよりも効果的に機能し得ることが示され、また特化型アルゴリズムは人々が考えていたほどにはうまく機能しない可能性も示されました。これはなぜこれが長期間見過ごされてきたのかという興味深い社会学的な問いを提起するものです。その答えの一部は、この分野がアルゴリズムを厳密に評価するために必要なエンジニアリング作業を行っていなかったため、何が機能し何が機能しないかを判断することが難しかったことにあるのです」
したがって、本研究の主要な貢献の一つは、エージェント(つまりニューラルネットワーク)が不完全情報ゲームで競争する方法を教えるための異なるアルゴリズムを公平に評価する手法を提供したことです。「私たちは異なるアプローチを採用しています」とルドルフは指摘します。「この分野で発表された多くの論文とは異なり、私たちは他のアルゴリズムに勝つ新しいアルゴリズムを提案しているわけではありません。私たちはこれらのアルゴリズムを評価できるベンチマーク(基準)を提案しているのです」
簡単に言えば、ベンチマークとはアルゴリズムのパフォーマンスを評価するために設計されたソフトウェアです。「私たちが提供するのは、人々が自らのアルゴリズムを持ち込み、特定のタスクのために訓練し、その成果がどの程度かを検証できるテスト場、あるいは競技場です」とファリーナは述べています
グループは、プレイヤーのパフォーマンスを「エクスプロイタビリティ」と呼ばれる概念に基づいて計算します。これは、プレイヤーが「最悪の敵」に対してどの程度うまく機能するかを測定するもので、ソコタ氏は説明しています。「ポーカーのようなゲームでは、この相手は私の手札の内容を知りませんが、与えられた手札に対して私がどのように振る舞うかは知っています。」この尺度でゼロを達成することは完璧なプレイを意味し、一方、高いエクスプロイタビリティスコアは最適化されていないプレイを示します。
チームが行った実験では5つのゲームがプレイされました。プレイヤーが相手の行動を確認できない「ファントム・ナイン(Phantom Tic-Tac-Toe)」の2バージョン、そして「Hex」と呼ばれるボードゲームの不確実情報バリアント2種類、さらに嘘つきサイコロ(Liar's Dice)と呼ばれる別の欺瞞ゲームです。
研究者たちが直面した最大の課題は、この規模のゲームでエクスプロイタビリティ測定を機能させることでした。これには最大300億の状態が含まれる可能性があります。この場合における「状態」とは、単にあり得るすべての盤面配置だけでなく、その過程でのあらゆるステップやミステップを含むゲーム全体の履歴も包含します。
「見えない物体で満たされた暗闇の部屋を覗き込むようなものです」とモハマドプール氏は言います。「どうにかして、これらの物体がどこにあるか、そしてどのようにそこに到達したかを特定する必要があります。」モハマドプール氏によると、過去の研究者たちは通常、彼らの研究で分析されたゲームよりも10万倍小さいゲームに対してエクスプロイタビリティを使用してきました。
これら5つのゲームで行われた実験において、ポリシー勾配アルゴリズムで訓練されたニューラルネットワークは、ゲーム理論ベースのアルゴリズムで訓練されたネットワークよりも優れた(より低い)搾取可能性スコアを示しました。翌ラウンドで行われた直接対決では、ポリシー勾配で訓練されたネットワークが再びゲーム理論派の相手チームを破りました。「これらの結果は安心できるものです」とルドルフ氏は述べています。「なぜなら、これによりベンチマーキング手法に対する自信がさらに深まるからです。」
研究チームは、ベンチマーキング用ソフトウェアを無料で自由に利用できるようにしました。モハマドプール氏は「スーパーコンピュータは必要ありません。通常のラップトップで実行できます。必要なことは、一般的に使用されているベンチマーキングソフトウェアのコレクション『OpenSpiel』にコードを1行追加するだけです」と述べています。
実験にはややマニアックなゲームも含まれていましたが、ファリーナ氏はこの研究をより広い文脈で位置づけたいと考えています。「『ゲーム』という用語は、実際には任意のマルチエージェント戦略的相互作用に適用されることを忘れないでください」と彼は言います。「したがって、本研究から得られる教訓が娯楽ゲームに限定されるものではありません。」
ヴィニツキー氏も同意します。「隠された情報は世界の非常に重要な性質です」と彼は述べています。「これは軍事作戦、取引シナリオ、交渉など、多くの事象に浸透しており、これらすべては隠された情報の条件下で実施されます。これらのゲームを改善できるという考え方は、他の状況でもより良い成果が得られる可能性を示唆しています。」
この研究には関与していない Google DeepMind のコンピュータサイエンティストでありゲーム理論の専門家であるイアン・ゲンプは、これらの結果を歓迎しています。「この研究は、古典的なツール [例えば方策勾配法] を近代化することが、複雑な戦略的問題を解決するための非常に生産的な道であることを示す説得力のある reminder となっています」と彼は述べています。
原文を表示
Whether you’re playing poker against a single opponent or find yourself in a bidding war over a home purchase with another prospective buyer, you are operating under conditions of imperfect information. You know what cards you’re holding in the poker game, and you also know how much above the home’s asking price you can afford, but you don’t know your opponent’s hand in the card game or how high the other home buyer is willing to go.
A paper co-authored by MIT researchers and presented in April at the International Conference on Learning Representations in Rio De Janeiro won’t tell you what to do in these situations, specifically. But it does offer new insights into so-called imperfect-information games that involve two contestants facing off in a “zero-sum” competition, where one player’s gain means the other player’s loss.
MIT researchers on the project include Sobhan Mohammadpour, a PhD student in MIT’s Department of Electrical Engineering and Computer Science (EECS) and the Laboratory for Information and Decision Systems (LIDS); and Gabriele Farina, an assistant professor in EECS and a principal investigator at LIDS. Additional co-authors include Max Rudolph of the University of Texas at Austin (UT), Nathan Lichtlé of the University of California at Berkeley (UCB), Alexandre Bayen of UCB, J. Zico Kolter of Carnegie Mellon University (CMU), Amy X. Zhang ’11, MNG ’12 of UT; Eugene Vinitsky of New York University; and Samuel Sokota of CMU.
The focus of the new work is on algorithms that could be used to train neural networks to participate in imperfect-information games. The assumption, long-held in the field, was that algorithms grounded in principles of game theory would, in this setting, clearly outcompete a general-purpose variety of algorithms called policy gradient methods, which came into use for decision-making in the 1990s. The term “policy” in this context basically means strategy, whereas “gradient” refers to a path that leads in the direction of greatest change — to the top (or bottom) of a hill, for example. Policy gradient methods are being used to train neural networks to make decisions that move — in small, sequential steps — toward a particular goal (like reaching a summit, metaphorically speaking), with continual adjustments and course corrections made along the way to bring the agent closer to the intended destination.
Although strategic games were not on the original agenda when policy gradient methods were conceived in the early 1990s, the authors of the new paper still wondered how this class of algorithms might fare in two-player games. These methods become more complicated to analyze in multi-agent settings, according to Farina. “There is still a direction you can move in to improve your circumstances, but, because of the other player’s actions, that direction can constantly change over the course of the game. And those shifts can be rapid.”
“It had been pretty much taken for granted that specialized game-theoretic algorithms were the right approach for this setting,” says Sokota. “Our study showed that policy gradient methods can work better than these specialized algorithms, and that the specialized algorithms may not work as well as people thought — which raises an interesting sociological question about why this went unnoticed for so long. Part of the answer is that the field hadn’t done the engineering work required to rigorously evaluate the algorithms, so it was hard to tell what worked and what didn’t.”
Consequently, a major contribution of this work has been to provide an even-handed way of appraising different algorithms that can teach agents — i.e., neural networks — how to compete in imperfect-information games. “We’re taking a different approach,” notes Rudolph. “Unlike many of the papers published in this field, we’re not proposing a new algorithm that can beat out other algorithms. We’re proposing a benchmark that can assess these algorithms.”
Simply put, a benchmark consists of software designed to rate the performance of algorithms. “What we’re offering is a testing grounds, or playing grounds, where people can take their algorithms, train them for a specific task, and see how well they do,” says Farina.
The group calculates a player’s performance in terms of a concept called exploitability, which measures how well a player does against the “worst-case adversary,” Sokota explains. “In a game like poker, this opponent wouldn’t know what my hand is, but would know how I would behave for any given hand.” Achieving a zero on this scale implies perfect play, whereas a high exploitability score indicates far-from-optimal play.
Five games were played in experiments carried out by the team: two versions of Phantom Tic-Tac-Toe, in which players can’t see what their opponent has done, along with two imperfect-information variants of a board game called Hex, and another game of deception called Liar’s Dice.
The biggest challenge faced by the researchers was getting the exploitability measure to work on games of this size, which may include as many as 30 billion states. A “state” in this case is not just all the possible board positions, but also encompasses the entire history of the game, including every step and misstep along the way.
“It’s like looking into a dark room that’s filled with objects you can’t see,” says Mohammadpour. “Somehow, you need to figure out where these objects are and exactly how they got there.” Previous researchers, Mohammadpour adds, have typically used exploitability for games that are 100,000 times smaller than the ones analyzed in their study.
In the experiments carried out on these five games, neural networks trained with policy gradient algorithms got better (lower) exploitability scores than networks trained on game theory-based algorithms. In head-to-head competitions, which took place in the next round, the policy gradient-trained networks again beat their game theory-trained opponents. “Those results were reassuring,” Rudolph says, “because they give us more confidence in our benchmarking approach.”
The team has made their benchmarking software freely available and convenient to use. “You don’t need a supercomputer,” Mohammadpour says. “You can run it on an ordinary laptop. And all you have to do is add a single line of code to a commonly used collection of benchmarking software called OpenSpiel.”
Although their experiments involved some fairly obscure games, Farina would like to put this work into a broader context. “Keep in mind that the term 'game' really applies to any multi-agent strategic interaction,” he says. “So the lessons we learn from this research are by no means limited to recreational games.”
Vinitsky agrees. “Hidden information is a very important property of the world,” he says. “It pervades a range of things — including military operations, trading scenarios, and negotiations — all of which are carried out under conditions of hidden information. The idea that we can improve on these games suggests that we can also do better in these other settings as well.”
Ian Gemp — a computer scientist and game theory expert at Google DeepMind who was not involved in this study — finds these results encouraging. “This work serves as a compelling reminder,” he says, “that modernizing classical tools [like policy gradient methods] remains a highly productive path for solving complex strategic problems.”
関連記事
人間と機械が遊ぶゲーム:戦略的思考を解明しAIを前進させる
イタリア出身の研究者ガブリエーレ・ファリーナは、幼少期から数学や科学に没頭し、14 歳で戦略的思考の研究に焦点を当てた。この研究は AI の発展に重要な役割を果たす。
開発者向け初のモデル「North Mini Code」の発表:Cohere が Hugging Face で紹介
AI 企業 Cohere は、Hugging Face Blog を通じて、開発者向けの専用モデルとして初めて「North Mini Code」を発表した。この新モデルは、コード生成や技術的タスクの支援を目的としている。
On-policy のはずが Off-policy になる:LLM 強化学習 の rollout mismatchと対策(rollout correction)
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み