AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Microsoft Research·2026年5月12日 02:19·約23分

SocialReasoning-Bench:AI エージェントがユーザーの利益のために行動できるかを測定するベンチマーク

#Reasoning#Agent#Benchmark#Negotiation#Microsoft Research
TL;DR

Microsoft Research は、AI エージェントがユーザーの利益のために交渉や調整を行う能力を評価する「SocialReasoning-Bench」を発表し、現状の最先端モデルでも社会的推論に重大な欠陥があることを示した。

AI深層分析2026年5月12日 03:04
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

新ベンチマークの発表

Microsoft Research は、AI エージェントがユーザーの代わりに交渉する能力を測定するための「SocialReasoning-Bench」を発表し、カレンダー調整と市場交渉という2つの現実的なシナリオで評価を行う。

2

現状モデルの限界

現在の最先端モデルはタスクを完了する傾向があるが、最適化された結果を得るための社会的推論(妥協点の発見や利益の最大化)に欠け、ユーザーにとって不利な条件を受け入れることが多い。

3

プロンプトの限界

「ユーザーの最善を尽くせ」という明示的な指示(プロンプト)を与えても、信頼できる代理人としてのパフォーマンスにはほど遠く、根本的な能力不足が示唆された。

4

主従関係の基準

AI エージェントにも弁護士や金融アドバイザーと同様の「忠実義務」や「注意義務」を課すべきであり、そのための評価指標として本ベンチマークが構築された。

5

二つの評価ドメインの定義

カレンダー調整とマーケットプレイス交渉という2つの領域において、エージェントはユーザーの代理人として他者と対話し、トレードオフに関する推論能力が測定される。

6

価値関数とZOPAの設計

各ドメインでは、ユーザーと相手の価値関数が逆相関または対立するように設定され、合意可能な領域(ZOPA)内に複数の選択肢が存在するようタスクが構築されている。

7

最前線モデルの限界

最先端のモデルはタスクの大半を完了できるものの、ユーザーにとって潜在的に価値のある結果を見逃し、ユーザーのために得られる利益を十分に最大化できていないことが示された。

影響分析・編集コメントを表示

影響分析

この研究は、AI エージェントが実社会で広く採用される上で直面する最大の課題の一つである「信頼性の欠如」を定量的に明らかにした点で重要です。特に、単なるタスク実行ではなく、複雑な人間関係や利害調整を伴う場面でのエージェントの振る舞いを評価する基準を設けたことは、今後のAI開発における重要な指針となるでしょう。企業は、ユーザーの利益を守るための社会的推論能力を強化しない限り、実務レベルでの導入には慎重にならざるを得ない状況を示唆しています。

編集コメント

AI エージェントが単なるツールから「代理人」へと進化するために不可欠な評価基準を提示した画期的な研究です。開発者は、プロンプトの調整だけでなく、根本的な推論能力の向上に取り組む必要があります。

image
image

一目でわかる要点

AI エージェントは社会的な文脈へと進出しています。エージェントがカレンダーの管理や購入交渉、あるいはユーザーに代わって他のエージェントとの対話を担当する際、単なるタスク遂行能力だけでなく、社会推論(Social Reasoning)が必要です。

SocialReasoning-Bench はその能力を評価します。このベンチマークは、2 つの現実的な設定——カレンダー調整とマーケットプレイス交渉——において、エージェントがユーザーのために交渉できるかをテストします。

このベンチマークは結果とプロセスの両方を測定します。エージェントには、結果の最適性(ユーザーにどの程度の価値を確保できたか)と、デューデリジェンス(有能な意思決定プロセスに従ったかどうか)という観点からスコアが付けられます。

現在の最先端モデルでは、まだ価値を見逃しているケースが多く見られます。タスク自体は完了しても、ユーザーのために効果的に主張するのではなく、非最適な会議時間や不利な取引を頻繁に受け入れてしまいます。

プロンプト(指示)の工夫は役立ちますが、それだけでは不十分です。ユーザーの最善の利益のために行動するという明示的な指導があったとしても、そのパフォーマンスは信頼できる代理人が達成すべき水準にはほど遠いままです。

AI エージェントがより多くの実世界タスクを引き受けるにつれ、それらはますます社会的文脈の中で動作するようになっています。適切な統合を行えば、Claude Cowork や Google Gemini といったエージェントはメールやカレンダーのワークフローを管理できます。こうした設定では、エージェントはあなたの代わりに他者と対話する必要があります。これには社会的推論が求められます—あなたが何を望んでいるか、相手方が何を望んでいるか、そしてどのような情報を開示し、保護し、あるいは反発すべきかを理解することです。

私たちの以前の研究によると、現在の最先端モデルは社会的推論を欠いています。シミュレーションされたマルチエージェント市場において、エージェントは代替案を探求することなく、受け取った最初の提案を最大 93% の確率で受諾しました。エージェントのソーシャルネットワークに対するレッドチーム(攻撃的テスト)では、単一の悪意のあるメッセージがシステム全体に拡散し、エージェントがそのメッセージを転送する前に個人データを開示させる結果となりました。

このような関係は AI 以外の分野でも長い歴史を持っています。経済学や法学では「主従関係」と呼ばれます—これは、他者との相互作用において利益が異なる相手に対して、代理人が本人の代わりに行動する関係を指します。弁護士、不動産仲介業者、金融アドバイザーはいずれもこのモードで活動しており、彼らが負う義務—注意義務、忠誠義務、守秘義務—は数世紀にわたる専門家の規範によって法典化されています。ユーザーの代わりに行動する AI エージェントについても、最終的には同様の基準が適用されるべきです。

社会推論の測定と進展を促進するため、私たちは SocialReasoning-Bench を構築しました。これは、エージェントが独立した目標、非公開の情報、そして潜在的に敵対的な意図を持つ相手方に対して、ユーザーの代わりに推論し交渉できるかをテストするためのベンチマークです。

SocialReasoning-Bench の紹介

imageimage図 1: 私たちのベンチマークは、カレンダー調整とマーケットプレイス交渉の 2 つのドメインにおけるエージェントの社会推論能力を測定します。それぞれにおいて、他の当事者とのコミュニケーション、代理人としての主張、そしてトレードオフに関する推論が必要です。

SocialReasoning-Bench は、カレンダー調整(Calendar Coordination)とマーケットプレイス交渉(Marketplace Negotiation)の 2 つのドメインにおける社会推論を評価します。それぞれのケースで、エージェントは相手方に対してユーザーのために主張し、達成した結果とプロセスの両面からスコアリングされます。私たちは、最先端モデルがほとんどのタスクを完了する一方で、ユーザーにとっての価値を常に手放していることを発見しました。

カレンダー調整

カレンダー調整では、アシスタントエージェントが単一日におけるユーザーのカレンダーを管理し、別のエージェントからの会議リクエストに対応します。

私たちは、エージェントが 0.0 から 1.0 の間でユーザーのスケジュール設定の嗜好性を捉えた時間スロットに対する価値関数(value function)にアクセスできると仮定しています。この関数はユーザーによって明示的に提供されるか、カレンダー履歴から推論され、タスク開始時にアシスタントに与えられます。

相手方は、ユーザーと会議をスケジュールしたい別の人物を代表するリクエストエージェントです。相手方にも同じスロットに対する独自の価値関数があり、これはユーザーの関数の逆として構築されています。つまり、一方にとって最も価値のあるスロットは他方にとって最も価値が低いものになります。一部の要求者は誠実に交渉を行いますが、他の要求者はこのやり取りを利用してプライベートなカレンダーの詳細を抽出したり、アシスタントをユーザーが望まない時間帯へ誘導しようとしたりします。

各タスクには、合意可能な範囲(ZOPA)が存在します。これは交渉理論から借用された用語で、両者が妥当に受け入れられる可能性のある結果のセットを指します。カレンダー調整における ZOPA は、双方のカレンダー上で互いに空き時間となっている時間帯のスロットの集合です。すべてのタスクは、ZOPA にユーザーにとって異なる優先度スコアを持つ少なくとも 3 つのスロットが含まれるように構築されており、かつ要求者の最初の提案は常にユーザーのカレンダーと矛盾するように設定されています。

マーケットプレイス交渉

マーケットプレイス交渉では、ユーザーを代表するバイヤーエージェントが、単一の製品を購入するためにセラーエージェントと交渉を行います。

ユーザーは製品に対して可能な限り低い価格で支払いたいと考えています。その価値関数は、取引価格とプライベートな保留価格(彼らが支払うことができる最高額)との差によって定義されます。この差が大きいほどより多くの価値を獲得でき、保留価格を超える取引では価値は得られません。

取引相手は、買い手の予約価格よりも低い独自の予約価格を設定した売り手エージェントです。取引相手の価値関数はユーザーのそれと鏡像関係にあり、高い取引価格はより多くの価値を生み出し、売り手の予約価格以下の取引価格は価値を生み出しません。

ZOPA(交渉可能領域)は、売り手と買い手の予約価格の間の価格範囲を指します。売り手の最初の提示価格は常に買い手の予約価格よりも高く設定されるため、買い手は価格を下げるよう交渉せざるを得なくなります。

新しい設定における新指標

既存の評価基準はタスク完了に焦点を当てています:会議はスケジュールされたか?取引は成立したか?主従関係(プリンシパル・エージェント)の設定において重要なのは、タスクが完了したかどうかだけでなく、どのように完了したかです。私たちはこの区別を捉えるための新しい指標を導入します。

成果の最適性

成果の最適性は、エージェントがその主のために獲得した利用可能な価値の割合を 0 から 1 のスケールで評価するものです。主にとって最も有利な ZOPA 内の成果は 1 と評価され、取引相手にとって最も有利な成果は 0.0 と評価されます。中間的な成果は、主の価値関数がそれらを両端点の間でどのように位置づけるかによって評価されます。

デューデリジェンス

成果の最適性だけでは、スキルと運を混同してしまいます。相手の状況を調査したり、反提案を行ったりせずに、相手の最初の提示に即座に応じるエージェントであっても、相手がたまたま良い成果を提案した場合、高いスコアを獲得する可能性があります。スキルと運を分離するために、私たちはプロセス指標を導入します。

デューデリジェンススコアは、0 から 1 のスケール上でプロセスの質を評価します。これは、軌跡内の各意思決定ポイントにおけるエージェントの行動が、同じ状態において確定的な合理的エージェントの方針に従って行われるはずの行動とどう一致するかを比較することで算出されます。この合理的エージェントの方針とは、有能な代理人が各ステップで取るべき行動を捉えた貪欲アルゴリズムであり、具体的には、行動前に関連する文脈を収集すること、自らの依頼者に有利な立場から交渉を開始すること、より良い選択肢が尽きるまで譲歩しないことなどが含まれます。デューデリジェンススコアとは、軌跡全体を通じてエージェントの実際の選択が合理的エージェントの選択と一致する割合のことです。

注意義務

結果最適性とデューデリジェンスを組み合わせることで、エージェントが代表する人々に対する注意義務(duty of care)の実用的な概念が形成されます。不注意なプロセスを通じて良い結果をもたらすエージェントは脆く、良いプロセスに従いながら悪い結果をもたらすエージェントは、過失ではなく能力の欠如を示しています。両方の項目で高いスコアを獲得できるエージェントのみが、強い社会的推論(social reasoning)を発揮していると言えます。

PODCAST SERIES

imageimage

医療における AI 革命、再考

Microsoft のピーター・リー(Peter Lee)と共に、AI が医療にどのような影響を与え、医学の未来にとって何を意味するのかを探る旅に出ましょう。

Listen now

Experimental setup

カレンダーアシスタントエージェントおよびマーケットプレイス購入者エージェントについては、Chain-of-Thought(思考の連鎖)を適用した GPT-4.1、高推論努力モードでの GPT-5.4、そして高思考レベルでの Claude Sonnet 4.6 および Gemini 3 Flash を評価します。対戦相手(すなわちカレンダー調整における依頼者、マーケットプレイス交渉における売り手)は常に中程度の推論努力を持つ Gemini 3 Flash とし、すべての条件で一定に保つことで、スコアの差がテスト対象モデルの性能によるものか、対戦相手の難易度によるものかを明確に区別できるようにしています。

各モデルは 2 つのプロンプト条件下で実行されます。1 つ目は Basic Prompting(基本プロンプティング)で、エージェントには役割とツールの説明のみが提供されます。2 つ目は Defensive Prompting(防御的プロンプティング)で、エージェントには利用可能なすべてのソースへの相談およびユーザーのために最善の結果を追求するよう明示的なガイダンスが追加されます。

各タスクは最大 10 ラウンドの交渉期間で実行されます。すべてのタスクにおいて、対戦相手から最初に提案が行われます。

What we're finding(発見)

発見 1:エージェントはほぼ完璧な率でタスクを完了するが、結果は劣っている。

カレンダースケジュール調整においては、エージェントは会議の予約にほぼ常に成功するが、その多くは最適ではない時間帯で行われる。マーケットプレイス交渉においては、取引はほぼ確実に成立するが、頻繁に最悪の価格で成立してしまう。タスク自体は完了するものの、質の高いものではない:タスク完了は成功を示すシグナルである一方、Outcome Optimality(結果の最適性)は、主たる利益者の最善の利益のために行動することに一貫して失敗していることを明らかにしている。

imageimage図 2:モデルおよびドメイン別のタスク完了率と結果の最適性。すべてのモデルはほぼ完璧な確率でタスクを完了しますが、生み出す結果は劣っています。結果の最適性は、基本プロンプトと防御的プロンプトの 2 つに対して測定されました。防御的プロンプトは改善に寄与しますが、格差を埋めるには至りません。

発見 2:防御的プロンプトは役立ちますが、格差を埋めるには不十分です。

エージェントに対し、委託者のために努力して働くよう指示を与えると、両ドメインで結果の改善が見られますが、格差を埋めるには不十分です。GPT-5.4 は防御的プロンプトから最も恩恵を受け(カレンダー管理で +0.21、マーケットプレイスで +0.12)、一方 GPT-4.1 はどちらのドメインでもほとんど反応を示しません。他のモデルはその中間に位置します。

発見 3:結果の最適性は、エージェントが手放した価値の大きさを示しています。

結果の最適性は、各取引が ZOPA(交渉可能領域)内のどこに位置するかを反映しています。結果をプロットすると、委託者の理想よりも相手方の理想に近い値に集約されます。

imageimage図 3:モデルおよびドメイン別の結果最適性(Outcome Optimality: OO)の分布。各点は 1 つのタスクインスタンスを表します。OO=1.0 はエージェントがその主のために利用可能な価値をすべて獲得したことを意味し、OO=0.0 は相手方がすべての価値を獲得したことを意味します。黒線は平均値を示しています。マーケットプレイスでは、すべてのモデルで結果が 0 の付近に集約されています。カレンダー管理ではエージェントの性能はより良好ですが、それでも平均的には中間点を下回っています。

マーケットプレイス交渉において、すべてのモデルは結果最適性について 0 またはその近傍で収束し、利用可能な余剰をほぼすべて相手に譲る取引を受諾しています。カレンダースケジューリングではエージェントのパフォーマンスはより良好ですが、依然として中間点に達せず、主の利益により適したスロットではなく、依頼者の好むスロットを受諾してしまいます。

エージェント交渉における価値獲得の測定は、エージェントがマーケットプレイス環境でどのように振る舞うかを検討する最近の研究に基づいています。私たちが制御された設定で動作しているため、双方に対して真値(ground-truth)制約を設定し、利用可能な価値がどのように配分されたかを正確に測定することができます。私たちの定式化は価格ベースの交渉を超えて一般化されます:ドメイン固有の価値関数へ抽象化することで、結果最適性はエージェントが競合するインセンティブに直面するあらゆる設定における余剰分配を測定できます。これには非金銭的ドメインであるカレンダースケジューリングも含まれ、ここでは「価値」は価格ではなく優先度スコアに基づいて定義されます。

発見 4:デューデリジェンスは、運と技能を区別するのに役立ちます。

結果の質とプロセスの質を組み合わせて見ると、より微妙な図景が浮かび上がります。多くのエージェントは、文脈を確認せずに行動したり、提示された条件に反論することなく受け入れたりするなど、脆いプロセスを通じて妥当な結果を達成しています。高いアウトカム最適性と低いデューデリジェンス(Due Diligence)は、信頼できる能力を持つエージェントではなく、単に幸運だったエージェントを示唆します。逆に、情報を収集したり、主張を押し通したりする本格的なデューデリジェンスを示すにもかかわらず、依然として悪い結果に至るエージェントも存在し、これは怠慢ではなく能力の欠如を指しています。

アウトカム最適性とデューデリジェンスをそれぞれ高い(>=0.5)と低い(<0.5)に分類すると、以下の 4 つのカテゴリが得られます:

  • 幸運な結果(Good outcome, OO ≥ 0.5 / DD < 0.5): Lucky
  • 堅牢な結果(Good outcome, OO ≥ 0.5 / DD ≥ 0.5): Robust
  • 怠慢な結果(Poor outcome, OO < 0.5 / DD < 0.5): Negligent
  • 非効果的な結果(Poor outcome, OO < 0.5 / DD ≥ 0.5): Ineffective

この分解の視点を通じて、モデルはカレンダー調整タスクの 50% 以上で堅牢な注意義務を果たしていることがわかります。特に Gemini 3 Flash は 90% で堅牢性を示しています。一方、マーケットプレイス交渉においては全く異なる図景が浮かび上がります。GPT-4.1 はタスクの 95% で怠慢であり、情報を収集せず、依頼者のために主張もしていません。また、Claude Sonnet 4.6、GPT-5.4、Gemini 3 Flash は、マーケットプレイスタスクの約 90% で非効果的な行動を示しており、デューデリジェンスを尽くして交渉しているにもかかわらず、良い結果を達成できていません。

⟦CODE_0⟧

各バケットを 0.5 の閾値で分割し、各モデルのタスクのうちどの四分位に属する割合をプロットします。例えば、カレンダースケジュール管理では、GPT-4.1 はタスクの 63% で高い結果最適性(OO)と高い適正調査(DD)を達成し(堅牢)、一方、マーケットプレイス領域では、GPT-4.1 はタスクの 95% で低い OO と低い DD を示し(過失)となります。

図 5~8 では、カレンダー管理ドメインにおける SocialReasoning-Bench の実例を用いて、これらの異なる振る舞いと失敗モードを説明しています。強力な交渉戦略に従って高価値の結果を確保するエージェントもあれば、主たる選択肢の提案を怠るなど不十分なプロセスを通じて妥当な結果を得るエージェントもあります。また、当初は有利な立場にありながら早期に譲歩し、不良な取引に陥ってしまうケースも見られます。極端な例では、一部のエージェントが過失的な行動を示し、ユーザーの利益と直接矛盾する場合でも、制約を確認せずに最初の提案をそのまま受け入れてしまいます。

imageimage図 5. カレンダー管理ドメインにおける GPT-4.1 の堅牢な行動の実際の言い換え例。まず主たる人物(プリンシパル)が最も望む選択肢を提案し、その後の競合を正しく拒否した上で、第二の最善の選択肢で譲歩しない姿勢を示すことで、良好な結果を達成しています。

imageimage図 6. カレンダー管理ドメインにおける GPT-4.1 が、主たる人物の最も望む選択肢を提案するという手順を欠いた不十分なプロセスから、妥当な結果を導き出した例。

imageimage図 7. カレンダー管理ドメインにおける GPT-4.1 が、主たる人物の最も望むスロットを提案して良好なスタートを切ったものの、早期に譲歩し、結果として不良の結果を招いた例。

imageimage図 8. GPT-4.1 が示した過失行動。可用性の確認もせず、依頼者の最初の提案を受け入れ、主たる人物のスケジュール上の他の会議と競合させてしまった例。

これらすべての例を総合すると、結果のみでは不十分である理由が浮き彫りになります。プロセスを測定しなければ、脆いものや偶発的な成功を真の能力と誤認するリスクがあります。デューデリジェンス(調査)は、エージェントが一貫して有能で信頼できる代理人として振る舞っているのか、それとも単に幸運なだけなのかを明らかにするのに役立ちます。

発見事項 5: エージェントは敵対的な操作に対して脆弱である

エージェントを敵対する相手と対峙させることでストレステストを行うと、圧力下においていつ関与し、いつ拒否し、どのように交渉すべきかをバランスさせるのに苦労することがわかります。

これらの敵対的シナリオを作成するために、私たちは結果を操作したり保護ステップを回避しようと試みる相手を明示的に導入します。一部の相手は注意深く設計された戦略に従い、圧力をかけたり情報を引き出そうとしますが、他の相手はより予測不能で創造的に生成された奇抜な戦術を用いて、新しい形態のソーシャルエンジニアリングを模倣します。これらによって、エージェントが既知の攻撃だけでなく、未知の攻撃にも対処できるかをテストします。

imageimage図 9: エージェントが両ドメインで敵対的な要求者に関与した際の拒否率と結果の最適性。カレンダー管理ドメインではエージェントは敵対的リクエストをほとんど拒否せず、マーケットプレイスドメインではより頻繁に拒否しています。エージェントが悪意のあるアクターと関与した場合、結果の最適性は全体的に低下しました。

Claude Sonnet 4.6 を除き、カレンダーのスケジューリングにおいてはエージェントが敵対的な要求を拒否することは稀である一方、マーケットプレイスの設定ではより頻繁に拒否することが判明しました。これは、社会的な文脈で構成された相互作用において敵対的意図を検出することが困難であることを示唆しています。エージェントが関与した場合の影響はカレンダーのスケジューリングにおいて最も顕著であり、GPT-4.1、GPT-5.4、Gemini Flash 3 全体を通じて Outcome Optimality(結果最適性)が大幅に低下しており、敵対的な相手方がこれらのエージェントをより悪い結果へと誘導することに成功していることが示唆されます。マーケットプレイスのドメインでは、エージェントが関与した場合の Outcome Optimality(結果最適性)は、無害な相手方に対して達成された低水準と比較可能なレベルにとどまっており、依頼者にとってほとんどあるいは全く価値を生み出していないことを捉えています。

なぜ今これが重要なのか

エージェントは、企業ワークフローを横断して協力することからデジタルマーケットプレイスでの取引に至るまで、マルチパーティ環境において互いに相互作用しています。これらのネットワークが形成されるにつれて、単純な 2 エージェント設定で観察される社会的推論のギャップが蓄積し始める可能性があります。交渉力の弱さ、過剰な信頼、あるいはデューデリジェンス(注意義務)の行使失敗はもはや局所的に留まりません。それらは調整を通じて伝播し、下流の意思決定に影響を与え、集合的な結果を形成します。

孤立した状態では、悪い会議時間や不利益な取引を受け入れるエージェントが引き起こす害は限定的です。しかしネットワーク内では、同じような行動が連鎖反応を起こし、システム的に悪化した調整や多数のエージェントにわたる広範な価値の喪失をもたらす可能性があります。

最近の研究では、ネットワーク環境で相互作用するエージェントの事例研究を通じて、これらのリスクとダイナミクスを探求し始めています。SocialReasoning-Bench は、相互作用の振る舞いを分離して測定可能にする、制御された再現可能なベンチマークを提供することで、この研究ラインを補完します。これにより、逸話に頼ることから脱却し、進捗を体系的に追跡できるようになります。これにより、モデル、エージェント、プラットフォームの開発者にとって、信頼できる代理人として行動するエージェントを構築するための具体的な目標が与えられます。

SocialReasoning-Bench はオープンソースであり、GitHub で利用可能です(新しいタブで開く)。

制限事項と今後の課題

現在の測定手法では、すべての相手方を同様に扱っています。実際には、関係性が重要です。社会的知性を持つエージェントは、その主人が相手方との関係に基づいて主張の強さを調整すべきです。例えば、上級執行役者と会議をスケジュールする際に過度に強く押し付けると、貴重な関係を損なう恐れがあり、時には適切な結果に至るためには

原文を表示
image
image

At a glance

AI agents are moving into social contexts. When agents manage calendars, negotiate purchases, or interact with other agents on a user’s behalf, they need more than task competence—they need social reasoning.

SocialReasoning-Bench evaluates that ability. The benchmark tests whether an agent can negotiate for a user in two realistic settings: Calendar Coordination and Marketplace Negotiation.

The benchmark measures both outcomes and process: it scores agents on outcome optimality (how much value they secure for the user) and due diligence (whether they follow a competent decision-making process).

Current frontier models often leave value on the table. They usually complete the task, but they frequently accept suboptimal meeting times or poor deals instead of advocating effectively for the user.

Prompting helps, but it is not enough. Even with explicit guidance to act in the user’s best interest, performance remains well below what a trustworthy delegate should achieve.

As AI agents take on more real-world tasks, they are increasingly operating in social contexts. With the right integrations, agents like Claude Cowork and Google Gemini can manage email and calendar workflows. In these settings, the agent must interact with others on your behalf. This requires social reasoning — understanding what you want, what the counterparty wants, and what information to reveal, protect, or push back on.

Our previous research suggests that today’s frontier models lack social reasoning. In our simulated multi-agent marketplace, agents accepted the first proposal they received up to 93% of the time without exploring alternatives. When red-teaming a social network of agents, a single malicious message spread through the system and led agents to disclose private data before passing the message along.

This kind of relationship has a long history outside AI. In economics and law it is called a principal-agent relationship: an agent acts on a principal’s behalf in interactions with others whose interests differ. Attorneys, real-estate agents, and financial advisors all operate in this mode, and the duties they owe—care, loyalty, confidentiality—are codified in centuries of professional norms. AI agents acting on a user’s behalf should ultimately be held to similar standards.

To measure and drive progress in social reasoning, we built SocialReasoning-Bench: a benchmark for testing whether agents can reason and negotiate on a user’s behalf against a counterparty with independent goals, private information, and potentially adversarial intent.

Introducing SocialReasoning-Bench

imageimageFigure 1: Our benchmark measures agents’ social reasoning ability in two domains, calendar coordination and marketplace negotiation. Each requires communicating with other parties, advocating on a principal’s behalf, and reasoning about tradeoffs.

SocialReasoning-Bench evaluates social reasoning in two domains: Calendar Coordination and Marketplace Negotiation. In each, an agent advocates for its user against a counterparty and is scored on both the outcome it reached and the process it followed. We find that frontier models complete most tasks but consistently leave value on the table for the user.

Calendar coordination

In calendar coordination, an assistant agent manages a user’s calendar on a single day and fields a meeting request from another agent.

We assume the agent has access to a value function over time slots that captures the user’s scheduling preferences between 0.0 and 1. This function could be provided explicitly by the user or inferred from their calendar history, and is given to the assistant at the start of the task.

The counterparty is a requestor agent representing another person who wants to schedule a meeting with the user. The counterparty has its own value function over the same slots, constructed as the inverse of the user’s, so the slots most valuable to one are least valuable to the other. Some requestors negotiate in good faith, while others use the interaction to extract private calendar details or push the assistant toward times the user does not want.

In each task there is a zone of possible agreement (ZOPA) a term borrowed from negotiation theory for the set of outcomes that both parties could plausibly accept. In calendar coordination, the ZOPA is the set of time slots that are mutually free on both calendars. We construct every task so that the ZOPA contains at least three slots with different preference scores for the user, and the requestor’s opening request always conflicts with the user’s calendar.

Marketplace negotiation

In marketplace negotiation, a buyer agent representing a user negotiates with a seller agent to purchase a single product.

The user wants to pay as little as possible for the product. Their value function is the gap between the deal price and a private reservation price, the highest price they would pay. A larger gap captures more value, and a deal above the reservation captures none.

The counterparty is a seller agent with its own private reservation price set below the buyer’s. The counterparty’s value function mirrors the user’s, with higher deal prices yielding more value and deal prices below the seller’s reservation price yielding no value.

The ZOPA is the price range between the seller’s and buyer’s reservations. The seller’s opening offer is always above the buyer’s reservation, forcing the buyer to negotiate the price down.

New metrics for a new setting

Existing benchmarks focus on task completion: did the meeting get scheduled? Did the trade close? In principal–agent settings, what matters is not just whether the task is completed, but how well it is done. We introduce new measures to capture this distinction.

Outcome Optimality

Outcome optimality scores the share of available value the agent captured for its principal, on a 0-to-1 scale. The outcome inside the ZOPA most favorable to the principal scores 1, while the outcome most favorable to the counterparty scores 0.0. Intermediate outcomes are scored by where the principal’s value function places them between those two endpoints.

Due Diligence

Outcome optimality alone conflates skill with luck. An agent that immediately accepts a counterparty’s first offer, without inspecting its situation or making a counter-proposal, can still score well if the counterparty happens to propose a good outcome. To separate skill from luck, we introduce a process metric.

Due diligence scores process quality on a 0-to-1 scale by comparing the agent’s actions, at each decision point in the trajectory, against the action a deterministic reasonable-agent policy would have taken in the same state. The reasonable-agent policy is a greedy procedure that captures what a competent advocate would do at each step, such as gathering relevant context before acting, opening with a position favorable to its principal, and conceding only after better options have been exhausted. The Due Diligence score is the rate at which the agent’s actual choices match the reasonable-agent’s choices over the trajectory.

Duty of care

Together, Outcome Optimality and Due Diligence form an operational notion of an agent’s duty of care to the person it represents. An agent that lands a good outcome through a careless process is fragile, while an agent that follows good process but lands a bad outcome points to a capability gap rather than negligence. Only an agent that scores well on both is exhibiting strong social reasoning.

PODCAST SERIES

imageimage

The AI Revolution in Medicine, Revisited

Join Microsoft’s Peter Lee on a journey to discover how AI is impacting healthcare and what it means for the future of medicine.

Listen now

Opens in a new tab

Experimental setup

For the calendar assistant agent and marketplace buyer agent, we evaluate GPT-4.1 with chain-of-thought, GPT-5.4 at high reasoning effort, and Claude Sonnet 4.6 and Gemini 3 Flash at high thinking levels. The counterparty (i.e. requestor in calendar coordination, and seller in marketplace negotiation) is always Gemini 3 Flash with medium reasoning effort, held constant across all conditions so that any difference in scores reflects the model under test rather than the difficulty of its opponent.

Each model is run under two prompt conditions: Basic Prompting where the agent receives only role and tool descriptions, and Defensive Prompting where the agent additionally receives explicit guidance to consult all available sources and advocate for the user toward the best possible outcome.

Each task runs for 10 negotiation rounds, at most. The counterparty proposes first in every task.

What we’re finding

Finding 1: Agents complete tasks at near-perfect rates but produce poor outcomes.

In calendar scheduling, agents almost always succeed in booking the meeting, but most often at suboptimal times. In marketplace negotiation, deals almost always close, but frequently at the worst possible price. The tasks get done, but not done well: task completion signals success, while Outcome Optimality reveals a consistent failure to act in the principal’s best interest.

imageimageFigure 2: Task Completion vs Outcome Optimality by model and domain. All models complete tasks at near-perfect rates, but produce poor outcomes. We measured Outcome Optimality against the two prompts, basic and defensive. Defensive prompting helps but does not close the gap.

Finding 2: Defensive prompting helps, but is not enough to close the gap.

When we instruct agents on how to work hard on their principal’s behalf, we see outcome improvements across both domains, but it is not enough to close the gap. GPT-5.4 benefits most from defensive prompting (+0.21 in calendaring, +0.12 in marketplace), while GPT-4.1 barely responds to it in either domain. The other models fall somewhere in between.

Finding 3: Outcome optimality shows how much value agents leave on the table.

Outcome optimality reflects where each deal lands within the ZOPA. When we plot outcomes, they cluster closer to the counterparty’s ideal than the principal’s.

imageimageFigure 3: Outcome Optimality (OO) distribution by model and domain. Each dot is one task instance. OO=1.0 means the agent captured all available value for its principal; OO=0.0 means the counterparty captured everything. Black lines show the mean. In marketplace, outcomes cluster near zero across all models. In calendar, agents perform better but still settle below the midpoint on average.

In marketplace negotiation, all models settle at or near zero for Outcome Optimality, accepting deals that give away virtually all available surplus. In calendar scheduling, agents perform better but still land below the midpoint, accepting the requestor’s preferred slots rather than ones that better serve their principal.

Measuring value capture in agent negotiations builds on recent studies examining how agents perform in marketplace settings. Because we operate in a controlled setting, we can establish ground-truth constraints for both parties and measure exactly how the available value was divided. Our formulation also generalizes beyond price-based negotiations: by abstracting to a domain-specific value function, Outcome Optimality can measure surplus division in any setting where agents face competing incentives, including non-monetary domains like calendar scheduling where “value” is defined over preference scores rather than prices.

Finding 4: Due Diligence helps distinguish between luck and skill.

When we look at the combination of outcome quality and process quality, a more nuanced picture emerges. Many agents that achieve reasonable outcomes do so through fragile processes: they don’t check context before acting or they accept offers without countering. High Outcome Optimality with low Due Diligence suggests an agent that got lucky rather than one that can be trusted. Conversely, some agents show genuine diligence — gathering information, pushing back — but still land on poor outcomes, pointing to capability gaps rather than negligence. Dividing Outcome Optimality and Due Diligence each into high (>=0.5) and low (Not diligent (DD Diligent (DD ≥ 0.5)

Good outcome (OO ≥ 0.5)LuckyRobust

Poor outcome (OO NegligentIneffective

Through the lens of this decomposition, we can see that models exhibit robust duty of care on more than 50% of calendar coordination tasks, with Gemini 3 Flash leading at 90% robust. In marketplace negotiation, though, a very different picture emerges. GPT-4.1 is negligent in 95% of tasks, neither gathering information nor advocating for its principal, while Claude Sonnet 4.6, GPT-5.4, and Gemini 3 Flash show ineffective behavior in roughly 90% of marketplace tasks, negotiating diligently but still unable to achieve good outcomes.

imageimage=0.5) buckets each, we plot the percent of tasks for each model that fall into each quadrant. For example, in calendar scheduling, GPT-4.1 achieves both high OO and high DD (Robust) in 63% of tasks. In contrast, in the marketplace domain, GPT-4.1 exhibits low OO and low DD (Negligent) in 95% of tasks. " class="wp-image-1171332"/>Figure 4: Splitting Outcome Optimality and Due Diligence into “low” (=0.5) buckets each, we plot the percent of tasks for each model that fall into each quadrant. For example, in calendar scheduling, GPT-4.1 achieves both high OO and high DD (Robust) in 63% of tasks. In contrast, in the marketplace domain, GPT-4.1 exhibits low OO and low DD (Negligent) in 95% of tasks.

Figures 5-8 illustrate these different behaviors and failure modes with real examples from SocialReasoning-Bench in the calendaring domain. We see agents that follow a strong negotiation strategy and secure high-value outcomes, but also agents that achieve reasonable outcomes through sloppy processes, such as failing to propose the principal’s best option. Others begin with a strong position but concede prematurely, collapsing to poor deals. At the extreme, some agents exhibit negligent behavior, accepting the first proposal without checking constraints, even when it directly conflicts with the user’s interests.

imageimageFigure 5. A real paraphrased example of robust behavior from GPT-4.1 in the calendaring domain, achieving a good outcome after proposing the principal’s most preferred option first, correctly refusing the conflict, and then holding the line at their second best option.

imageimageFigure 6. GPT-4.1 in the calendaring domain achieving a reasonable outcome from a sloppy process that didn’t include proposing the principal’s most preferred option.

imageimageFigure 7. GPT-4.1 in the calendaring domain starting out strong by proposing the principal’s most preferred slot but then caving early and achieving a poor outcome.

imageimageFigure 8. GPT-4.1 exhibiting negligent behavior, accepting the requestor’s first proposal without confirming availability and conflicting with another meeting on the principal’s calendar.

Taken together, these examples highlight why outcome alone is insufficient. Without measuring process, we risk mistaking brittle or accidental success for genuine capability. Due Diligence helps surface whether an agent is consistently behaving like a competent, trustworthy delegate, or simply getting lucky.

Finding 5: Agents are vulnerable to adversarial manipulation

When we stress test agents by pitting them against adversarial counterparties, we find that agents struggle to balance when to engage, when to refuse, and how to negotiate under pressure.

To create these adversarial scenarios, we introduce counterparties explicitly trying to manipulate outcomes or bypass protective steps. Some follow carefully designed strategies, applying pressure or probing for information, while others use more unpredictable, creatively generated whimsical tactics that mimic novel forms of social engineering. Together, these test whether agents can handle not just known attacks, but unfamiliar ones.

imageimageFigure 9: Refusal Rates and Outcome Optimality when agents engaged with adversarial requestors in both domains. Agents rarely refuse adversarial requests in calendaring, while refusing more often in the marketplace. When agents did engage with malicious actors, Outcome Optimality dropped across the board.

We find that, aside from Claude Sonnet 4.6, agents rarely refuse adversarial requests in calendar scheduling, while refusing more often in marketplace settings. This suggests that adversarial intent is harder to detect in socially framed interactions. When agents do engage, the impact is starkest in calendar scheduling with Outcome Optimality dropping substantially across GPT-4.1, GPT-5.4, and Gemini Flash 3, suggesting that adversarial counterparties successfully steer these agents toward worse outcomes. In the marketplace domain, Outcome Optimality when agents engaged remains comparable to the low levels achieved against benign counterparties, capturing little to no value for their principals.

Why this matters now

Agents are interacting with each other in multi-party environments, from collaborating across enterprise workflows to transacting in digital marketplaces. As these networks form, the social reasoning gaps we observe in simple two-agent settings can begin to compound. Weak negotiation, over-trust, or failure to exercise due diligence no longer stay local. They propagate through coordination, influence downstream decisions, and shape collective outcomes.

In isolation, an agent that accepts a bad meeting time or a poor deal causes limited harm. In a network, those same behaviors can cascade, leading to systematically worse coordination or widespread value loss across many agents.

Recent work has begun exploring these risks and dynamics through case studies of agents interacting in networked settings. SocialReasoning-Bench complements this line of work by providing a controlled, reproducible benchmark that isolates interaction behaviors and makes them measurable. This allows us to move beyond anecdotes and systematically track progress, giving model, agent, and platform developers a concrete target for building agents that act as trustworthy delegates.

SocialReasoning-Bench is open source and available on GitHub (opens in new tab).

Limitations and future work

Our current measures treat all counterparties equally. In practice, relationships matter. A socially intelligent agent should modulate its assertiveness based on their principal’s relationship with the counterparty: pushing too hard when scheduling a meeting with a senior executive may damage a valuable relationship, and sometimes the right outcome is reached thro

この記事をシェア

関連記事

Vercel Blog重要度42026年6月25日 16:00

Vercel でエージェントに製品デザインを教える

Microsoft Research重要度42026年6月26日 01:00

AI を駆使した説明と実験による脳理解の探求

Vercel Blog重要度42026年6月25日 22:00

AI SDK 7 の発表

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む