「バトルシップ」ゲームを通じて AI エージェントにより良い質問をさせる方法を教える
MIT とハーバード大学の研究者は、モンテカルロ推論戦略とコード生成を活用することで、小規模な言語モデルが人間を凌駕する質問力を獲得し、高コストの最先端モデルよりも効率的にタスクを遂行できることを実証した。
キーポイント
BattleshipQA データセットとゲーム設計
MIT とハーバード大学が共同開発した「Collaborative Battleship」ゲームを用いて、人間とAIの質問・回答パターンを収集し、不確実性下での情報探索能力を評価する新しいベンチマークを構築した。
モンテカルロ推論戦略による小モデルの劇的改善
事前学習なしでは人間に劣っていた小規模モデル(Llama 4 Scout)が、確率計算に基づく推論戦略を導入することで、勝率が8%から82%へと劇的に向上し、大規模モデルを凌駕する結果となった。
コード生成による回答精度の向上
質問をコードに変換して検証プロセスを明示化させる手法により、小規模モデルの回答誤りが大幅に減少し、信頼性の高い「スポッター」として機能できるようになった。
コスト効率と最先端モデルとの比較
推論戦略の改善により、計算コストが約1%という小規模モデルが、GPT-5のような最先端モデルよりも効率的にゲームをクリアする能力を示し、リソース最適化の可能性を示した。
影響分析・編集コメントを表示
影響分析
この研究は、AI エージェントの性能向上において「より大きなモデル」への依存から、「より賢い推論アルゴリズム」への転換を促す重要な転換点となる。特に医療診断や科学発見のような高リスク・不確実性の高い領域において、コスト効率が高く信頼性の高い小規模モデルを活用する新たなパラダイムを提供し、実社会でのAI導入のハードルを下げる可能性を秘めている。
編集コメント
「モデルサイズが全てではない」という常識を覆す成果であり、推論アルゴリズムの最適化がいかに重要かを浮き彫りにしています。今後はこの手法が、リソース制約のある現場での実用化にどう活かされるかが注目されます。
2026 年、人工知能エージェントへの過熱した期待はかつてないほど高まっています。これらの半自律型プログラムは、言語モデル(LMs)を主に使用して、カスタマーサービスやソフトウェア開発などの分野で「思考」し、明確に定義されたタスクを実行できます。しかし、医療診断や科学発見のような分野では、不確実な環境において広範な解決策について問いかける能力が求められ、これは言語モデルが苦手とするところです。**
MIT のコンピュータサイエンスおよび人工知能研究所(CSAIL)とハーバード大学の工学応用科学部(SEAS)の研究者たちは、言語モデルが高リスクの状況で抱える主要な課題を理解するために、さらに深く調査を行いました。そのテストとは、「バトルシップ」という古典的な推測ゲームです。このゲームは認知科学者が人間がどのように情報を探索するかを研究する際に役立ってきました。
CSAIL と SEAS の学者たちは、このゲームに新たな要素を加え、自然言語での質問と回答を中心に再構成しました。彼らの「コラボレーティブ・バトルシップ」ゲームでは、1 人の参加者が隠された艦船の場所を尋ねる「キャプテン」として、もう 1 人のチームメイトがその質問にリアルタイムで答える「スポッター」として役割を果たします。
研究者たちはまず、40 人以上の人間にゲームをプレイしてもらい、彼らの質問と yes-no 形式の回答を集めて「BattleshipQA」データセットを構築しました。これらの結果は、チームが最先端の大規模言語モデル(GPT-5 など)や小規模なモデル(Llama 4 Scout など)をゲームでテストする際の有益な比較基準となりました。事前学習を行わなかった場合でも、上位の LMs は「Battleship」において人間に勝つことができることが分かりました—つまり、より少ないターン数でゲームを完了できるのです—一方、小規模なシステムははるかに非合理的であることが示されました。
主な問題は、多くのモデルが有用な質問を思いつくことに不慣れだということです。隠された船についてより多くの情報を引き出すような方法で LMs に問いかけさせるために、研究者たちは各モデルにモンテカルロ推論戦略(Monte Carlo inference strategy)を与えました。これは、各応答に対して異なる選択肢が正しい確率を慎重に測定する手法です。その結果:規模に関係なく、一般プレイヤーよりも「Battleship」で勝つことができる AI モデルが生まれました。
おそらく最も印象的な結果は、Llama 4 Scout の飛躍でした。比較的小さな LM であるこのモデルは、人間に勝つ確率はわずか 8 パーセントしかありませんでした。しかし、推論戦略を改良したことで、人間に対する「Battleship」の勝利率が 82 パーセントに達しました。このような慎重かつ効率的な質問スタイルにより、このモデルはコストが約 1 パーセントという規模でありながら、フロンティアモデル(GPT-5)をも上回る性能を発揮することができました。
この改善に加え、研究者たちは人間と大規模言語モデル(LMs)の間の質問回答における格差を縮小しました。GPT-5 はゲームをより早く完了させるのに役立つ信頼できる観測者でしたが、 smaller systems には船が隠されている場所について誤った回答を与えるという悪い癖がありました。モデルは、回答を検証する方法を明示的に指示するコードへと質問を変換し始めた際、平均して 15 パーセントの精度向上を見せました(例えば、船があるかどうかを問われた際に、その領域を素早く検索させるなど)。
「現在の言語モデルは主に複雑な問い合わせに応答するように最適化されていますが、それらが自ら良い質問をする方法を学習するかどうかはあまり明確ではありません」と、この研究の主要著者であり MIT の博士課程学生かつ CSAIL 研究者である Gabriel Grand SM '23 は述べています。「私たちの研究では、有益な質問をすることは世界を予測しシミュレーションする能力に依存していることが示されました。エージェントに『世界モデル』へのアクセスを与えることで、彼らはより良い質問を行い、発見をより効率的に行うことができることが分かりました。」
LMs における大きな転換点**
チームの最初の焦点は、言語モデルにより良い質問をさせることにありました。モンテカルロ推論戦略を実装することで、言語モデルは潜在的な推測を個別の粒子として推論します。観測者からの各回答に対してより妥当性が高いと見なされるものは、各ターンごとに膨らんだり縮んだりするゲームボールのように、より重く加重されます。このより計算され、適応的なアプローチにより、艦長は観測者から大幅に多くの情報を引き出す質問を行うことができました。
その後、科学者たちは広く使用されているプログラミング言語 Python を用いて AI 観測者を支援しました。艦長が問うた各質問は自動的に符号化されたコマンドに変換されます。例えば、「1 列目に 2 つの行にまたがる船がありますか?」という質問は、該当領域を検索し、デジタルゲームピースの幅を評価するよう観測者用言語モデルに指示する命令に変換されます。特に得意とする言語で明確な指示を与えることで、各システムは正答率を大幅に向上させました。例えば、軽量システムである GPT-4o-mini では性能が約 30% 向上し、大規模モデルの Claude 4 Opus でさえも約 8 ポイント上昇しました。
「この分野では、LM がコードを生成して自身の解決策を検証する『自動形式化』戦略から多くの成功が見られていますが」と、MIT の電気工学・コンピュータサイエンス准教授であり CSAIL 主任研究者である共同執筆者のジェイコブ・アンドレアスは述べています。「私がこの研究で最も興奮するのは、LM の探索能力と情報収集能力を向上させることで、最初からより良い解決策を生成する可能性が開かれる点です。私たちは、この研究成果を科学分野からコーディングや数学的問題解決のような応用分野へとスケールアップすることに期待しています。」
別のゲームを楽しもう
では、このアプローチは他のボードゲームでも通用するのでしょうか?チームは、新しく装備された LM を「誰だろう?」というゲームでテストしました。大規模モデルも小規模モデルも巧みに 100 の選択肢を絞り込み、選ばれた隠されたキャラクターを正しく推測しました。Llama 4 Scout は 30%の成功率でしたが、グランド氏と彼の同僚たちの調整後には、実行の 72% 以上でタスクを完了できるようになりました。一方、GPT-4o は 62% から 90% に飛躍しました。各ゲームでは GPT-5 がスポッターとして機能し、質問が可能な限り正確に回答されるように確保しました。
両方のゲームにおいて言語モデルは有望な進歩を遂げていますが、改善の余地はまだ残っています。例えば、人間と比較すると、複雑な質問に答えることには依然として苦戦しています。OpenAI の研究者であり、最近ハーバード大学を卒業した共著者の Valerio Pepe は、「GPT-5 は平均的な『バトルシップ』プレイヤーに勝つことができますし、私たちの手法を用いればさらにわずかに良くなります。しかし、チェスとは異なり、トッププレイヤーでさえ AI システムに対して成功しないのと同様に、すべてのモデルにとってエキスパートプレイヤーを破ることは依然として困難です」と述べています。
研究者たちの発見は、AI エージェントが「干し草の中の針」を発見する能力において未開拓の可能性を持っていることを示しています。つまり、膨大な選択肢の中から科学課題に対する稀な解決策を見つけるための探索です。情報検索スキルの向上により、例えば化合物の分子構造を特定するなど優れた研究アシスタントとなる可能性がありますが、研究者たちは「コラボレーティブ・バトルシップ」は比較的単純なテストベッドであると注意を促しています。彼らは、システムがさらに多くの選択肢を検討しなければならないより複雑な設定で言語モデルをテストしたいと考えています。
Grand はまた、人間と AI モデルが協力して、両者が一緒に働くことでより良い成果を出せるかどうかを研究する計画も持っています。モデルはゲームシミュレーションにおけるわずかなファインチューニングからも恩恵を受ける可能性があり、さらに計算リソースが増えれば、言語モデルはゲームの展開を予測するための高度な推論能力を獲得できるでしょう。
「AI システムがより自律的になるにつれ、最も困難な問題は社会性のあるものになることが明らかになっています:共通の基盤を追跡し、誤解を解消し、時間とともに異なるパートナーに適応することです」と、この論文には関与していないスタンフォード大学の言語学准教授であるロバート・ホーキンスは述べています。「この研究は、制御された協働環境においてこれらの現象を見事に捉え、AI エージェントにとっての真のボトルネックが単に最適な質問を計算することではなく、その回答を最大限に活用するために必要な語用論的推論であることを説得力を持って示しています。」
グランドとペペはこの論文を、CSAIL の2人の主任研究者であるMIT准教授のジェイコブ・アンドレアス氏およびMIT教授のジョシュア・テンネンバウム氏と共に執筆しました。彼らの研究は、一部において、MIT シーゲルファミリー知能探求(Quest for Intelligence)、MIT-IBM ワトソン AI ラボ、FinTechAI@CSAIL イニシアチブ、スローン研究奨学金、インテル、空軍科学研究所、国防高等研究計画局、海軍研究局、そして国立科学財団によって支援されました。彼らは4月に開催された学習表現国際会議(ICLR)で、口頭発表として論文を発表しました。
原文を表示
In 2026, the hype for artificial intelligence agents is louder than ever before. These semi-autonomous programs can “think” and execute well-defined tasks in areas like customer service and software development, typically using language models (LMs). But fields like medical diagnosis and scientific discovery require them to inquire about a vast range of solutions in uncertain environments, which LMs struggle with.**
Researchers at MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL) and Harvard University’s School of Engineering and Applied Sciences (SEAS) peered deeper into LMs to understand their main issues in high-stakes settings. Their test: “Battleship,” a classic guessing game that’s helped cognitive scientists study how humans seek information.
CSAIL and SEAS scholars added a twist by reframing the game around asking and answering natural language questions. In their “Collaborative Battleship” game, one participant is a “captain” who inquires about where hidden ships are, while their teammate plays the “spotter” by responding to those questions in real-time.
The researchers first had over 40 humans play the game together, collecting their questions and yes-no answers to build the “BattleshipQA” dataset. These results were a helpful point of comparison when the team tested state-of-the-art LMs (like GPT-5) and smaller models (like Llama 4 Scout) on their game. Without training the models beforehand, they found that top LMs can “beat” humans at “Battleship” — that is, complete the game in fewer turns — but smaller systems are far less rational.
The chief issue was that many models are simply not adept at coming up with useful questions. To get LMs to inquire in ways that reveal more information about hidden ships, the researchers gave each model a Monte Carlo inference strategy, which carefully measures the likelihood of different options being correct with each response. The result: AI models that can beat regular players at “Battleship,” regardless of scale.
Perhaps the most striking results were Llama 4 Scout’s gains. As a relatively small LM, it only beat humans 8 percent of the time. But with refinements to its inference strategy, the model reached a “Battleship” win rate of 82 percent versus humans. This careful and efficient style of asking questions also enabled the model to outpace a frontier model (GPT-5), while operating at around 1 percent of its cost.
On top of this improvement, the researchers shrank the gap between humans and LMs in answering questions. While GPT-5 was a reliable spotter that helped models finish games faster, smaller systems had a bad habit of giving the wrong answers about where ships were hidden. The models saw an accuracy boost of 15 percent on average when they began converting questions into code that explicitly tells them how to verify their answers (for example, having the model run a quick search of an area when asked if a ship was there).
“Today’s language models are primarily optimized to answer complex queries, but it’s less clear whether they learn to ask good questions for themselves,” says MIT PhD student and CSAIL researcher Gabriel Grand SM ’23, who is a lead author on a paper about the work. “Our work shows that asking informative questions depends on the ability to predict and simulate the world. We find that when we give agents access to a ‘world model,’ they ask better questions and make discoveries more efficiently.”
A sea change for LMs**
The team’s first focus was getting LMs to ask better questions. By implementing Monte Carlo inference strategies, the LMs reason about potential guesses as individual particles. The ones that appear more valid with each answer from the spotter would be weighted more heavily, sort of like game balls that inflate or deflate each turn. With this more calculated, adaptive approach, the captain could make inquiries that extracted considerably more info from the spotter.
The scientists then turned to the widely used programming language Python to help out AI spotters. Each question the captain asked was automatically converted into an encoded command. For example, a question like, “Is there a ship in column one that spans two rows?” turns into instructions for the spotter LM to search the area in question and assess how wide the digital game piece is. By giving the model clear directions in a language it understands particularly well, each system gave correct answers considerably more often. The lightweight system GPT-4o-mini saw a nearly 30 percent performance bump, for instance, and even the large model Claude 4 Opus jumped about eight points.
“The field has seen a lot of success from ‘auto-formalization’ strategies, in which LMs generate code to verify their solutions,” says senior author Jacob Andreas, an MIT electrical engineering and computer science associate professor and CSAIL principal investigator. “What I find most exciting about this work is that it opens up the possibility of using these techniques to generate better solutions in the first place, by improving LMs’ exploration and information gathering capabilities. We are excited to scale this work up from scientific domains to applications like coding and mathematical problem-solving.”
Let’s play something else
But how would this approach fare in other board games? The team tested their newly equipped LMs at “Guess Who?”, where large and small models skillfully whittled down 100 options to correctly guess which hidden character had been chosen. Llama 4 Scout was successful 30 percent of the time, but after Grand and his colleagues’ tweaks, it completed the task on over 72 percent of its runs. Meanwhile, GPT-4o leapt from 62 percent to 90 percent. GPT-5 was the spotter in each game to ensure questions were answered as accurately as possible.
While LMs have made promising progress in both games, there’s room for improvement. For instance, the models still struggle to answer complex questions, compared to humans. OpenAI researcher, recent Harvard graduate, and coauthor Valerio Pepe adds that “GPT-5 can beat your average ‘Battleship’ player, and gets a hair better with our methods. However, expert players are still hard to beat for all models, unlike in chess, where even top players don’t succeed against AI systems.”
The researchers’ findings show that AI agents have untapped potential in “needle-in-a-haystack” discovery — navigating a massive space of options to find a rare solution to scientific challenges. While improved information-seeking skills would make them excellent research assistants with, say, identifying a compound’s molecular structure, the researchers caution that “Collaborative Battleship” is a somewhat simple test bed. They’d like to test LMs in more complex settings, where the systems have to consider far more options.
Grand also plans to have humans and AI models collaborate to study whether they work better together. The models might also benefit from a bit of fine-tuning on game simulations, and with more computing power, LMs would have more advanced inference capabilities to predict how a game will evolve.
“As AI systems become more agentic, the hardest problems turn out to be social ones: tracking common ground, resolving misunderstandings, and adapting to different partners over time,” says Robert Hawkins, assistant professor of linguistics at Stanford University, who wasn’t involved in the paper. “This work elegantly captures these phenomena in a controlled collaborative setting, and makes a compelling case that the real bottleneck for AI agents isn’t just the calculation of optimal questions, but the pragmatic reasoning needed to make the most of their answers.”
Grand and Pepe wrote the paper with two CSAIL principal investigators: MIT Associate Professor Jacob Andreas and MIT Professor Joshua Tenenbaum. Their work was supported, in part, by the MIT Siegel Family Quest for Intelligence, the MIT-IBM Watson AI Lab, the FinTechAI@CSAIL initiative, a Sloan Research Fellowship, Intel, the Air Force Office of Scientific Research, the Defense Advanced Research Projects Agency, the Office of Naval Research, and the National Science Foundation. They showcased their paper as an oral presentation at the International Conference on Learning Representations (ICLR) in April.
関連記事
[AI ニュース] Reve 2 と Ideogram 4:画像生成におけるレイアウト制御の進展
Latent Space は、Reve 2 と Ideogram 4 の同時発表により、画像構成が AGI ハード課題から脱却したと指摘。両社が強力なラベル付けとコードによるレイアウト制御を強化し、特に Ideogram 4.0 がオープンモデルで最高性能となったことを紹介している。
非公式 AI の限界を超える - Carina Hong, Axiom Math
2025 年、7 ヶ月目のスタートアップ企業「Axiom」が、難関の数学試験「プットナム試験」で全 12 問を解き、最優秀学生や既存 AI システムを上回る成績を収めた。
Google の新モデル「Gemma 4 12B」は 16GB RAM のノート PC で動作可能に設計
Google は、メモリ消費を抑えた新しい生成 AI モデル「Gemma 4 12B」を発表した。このモデルは、一般的な消費者向けノートパソコン(RAM 16GB)でも実行できるように最適化されており、ローカルでの AI 利用を促進するものである。