AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク
GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。
キーポイント
Apple主導の研究チームがマルチモーダルAIの新たな課題として、複数話者・対話中心のエージェント的推論能力の不足を指摘
AMUSEベンチマークを提案し、既存MLLMが複数話者理解で弱い性能を示すことを実証
RAFTというデータ効率的なエージェント的アライメントフレームワークを開発し、最大39.52%の精度向上を達成
会話型ビデオアシスタントや会議分析など実用的な応用に向けた基盤技術を提供
影響分析・編集コメントを表示
影響分析
この研究は、GPT-4oやQwen3-Omniなどの先進的MLLMでも未解決の複数話者・対話理解という実用的課題に焦点を当て、ベンチマークと改善フレームワークを提供することで、マルチモーダルAIの次世代発展方向を示唆している。特にエージェント的推論と自己評価を組み込んだアプローチは、より自律的で文脈を理解するAIシステムの開発に貢献する可能性が高い。
編集コメント
Appleの研究チームが実用性の高いマルチモーダル課題に取り組む姿勢が明確で、既存モデルの限界を特定し改善策まで提示した点が評価できる。会話AIの次世代進化に影響を与える可能性大。
AMUSE: エージェント的マルチスピーカー理解のための視聴覚ベンチマークおよびアライメントフレームワーク
AMUSE: 視聴覚ベンチマークおよびアライントフレームワーク:エージェント的マルチスピーカー理解のために
著者Sanjay Chowdhury†, Karren D. Yang, Xudong Liu, Fartash Faghri, Pavan Kumar Anasosalu Vasu, Oncel Tuzel, Dinesh Manocha†, Chun-Liang Li**, Raviteja Vemulapalli
出版情報を見る
GPT-4oやQwen3-Omniなどの最近のマルチモーダル大規模言語モデル(MLLM)は強力な知覚能力を示すが、誰が話しているかの追跡、役割の維持、時間軸を超えた出来事の接地を要求する、エージェント的推論を必要とするマルチスピーカーで対話中心の設定には苦戦している。これらのシナリオはマルチモーダルな音声・映像理解の中心であり、会話型ビデオアシスタントや会議分析などのアプリケーションにおいて、モデルは音声と視覚のストリームを統合して推論しなければならない。我々はAMUSEを紹介する。これは本質的にエージェント的であるタスクを中心に設計されたベンチマークであり、モデルが複雑な視聴覚的相互作用を計画、接地、内省のステップに分解することを要求する。これはMLLMを、ゼロショット、ガイド付き、エージェント的の3つのモードと、時空間的スピーカー接地やマルチモーダル対話要約を含む6つのタスクファミリーにわたって評価する。全てのモードにおいて、現在のモデルは弱いマルチスピーカー推論と、非エージェント的およびエージェント的評価の両方における一貫性のない振る舞いを示す。これらのタスクの本質的にエージェント的な性質とLLMエージェントに関する最近の進歩に動機づけられ、我々はRAFTを提案する。これはデータ効率的なエージェント的アライメントフレームワークであり、報酬最適化を、報酬としての本質的なマルチモーダル自己評価、およびデータとパラメータ効率的な更新のための選択的パラメータ適応と統合する。RAFTを使用することで、我々のベンチマークにおいて精度で最大39.52%の相対的改善を達成した。AMUSEとRAFTは合わせて、マルチモーダルモデルにおけるエージェント的推論を検証し、その能力を向上させるための実用的なプラットフォームを提供する。
† メリーランド大学カレッジパーク校
** Apple在籍時の成果
関連する研究と最新情報。
AgentBuilder: インターフェースエージェントのユーザーエクスペリエンスをプロトタイピングするための足場の探求
2026年1月9日研究分野 ヒューマンコンピュータインタラクション
生成AIモデルによって駆動されるインターフェースエージェント(「エージェント」と呼ばれる)は、ユーザーのコマンドに基づいてアクションを自動化できる。エージェントを開発する上で重要な側面は、そのユーザーエクスペリエンス(すなわち、エージェントエクスペリエンス)である。AIエンジニア以外のより広範な人々がエージェントエクスペリエンスをプロトタイピングするための足場を提供する必要性が高まっている。なぜなら、彼らはエージェントエクスペリエンスの設計に貴重な視点を貢献できるからである。本研究では、我々は…
セルフプレイによるマルチエージェント交渉の学習に向けて
2019年1月28日研究分野 コンピュータビジョンICCVワークショップ
洗練され、堅牢で安全な逐次的意思決定を行うことは、知能システムの核心である。これは特に、エージェントが他のエージェントの意図と将来の可能な行動を予測する必要がある、複雑なマルチエージェント環境における計画にとって重要である。従来の方法はこの問題をマルコフ決定過程として定式化するが、その解法は様々な仮定に依存し、コーナーケースに直面すると脆弱になることが多い。…
機械学習における機会を発見する。
私たちの機械学習研究は、日々新たな領域を切り拓いています。

原文を表示
AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding
AuthorsSanjay Chowdhury†, Karren D. Yang, Xudong Liu, Fartash Faghri, Pavan Kumar Anasosalu Vasu, Oncel Tuzel, Dinesh Manocha†, Chun-Liang Li**, Raviteja Vemulapalli
View publication
Recent multimodal large language models (MLLMs) such as GPT-4o and Qwen3-Omni show strong perception but struggle in multi-speaker, dialogue-centric settings that demand agentic reasoning tracking who speaks, maintaining roles, and grounding events across time. These scenarios are central to multimodal audio-video understanding, where models must jointly reason over audio and visual streams in applications such as conversational video assistants and meeting analytics. We introduce AMUSE, a benchmark designed around tasks that are inherently agentic, requiring models to decompose complex audio-visual interactions into planning, grounding, and reflection steps. It evaluates MLLMs across three modes zero-shot, guided, and agentic and six task families, including spatio-temporal speaker grounding and multimodal dialogue summarization. Across all modes, current models exhibit weak multi-speaker reasoning and inconsistent behavior under both non-agentic and agentic evaluation. Motivated by the inherently agentic nature of these tasks and recent advances in LLM agents, we propose RAFT, a data-efficient agentic alignment framework that integrates reward optimization with intrinsic multimodal self-evaluation as reward and selective parameter adaptation for data and parameter efficient updates. Using RAFT, we achieve up to 39.52% relative improvement in accuracy on our benchmark. Together, AMUSE and RAFT provide a practical platform for examining agentic reasoning in multimodal models and improving their capabilities.
† University of Maryland, College Park
** Work done while at Apple
Related readings and updates.
AgentBuilder: Exploring Scaffolds for Prototyping User Experiences of Interface Agents
January 9, 2026research area Human-Computer Interaction
Interface agents powered by generative AI models (referred to as “agents”) can automate actions based on user commands. An important aspect of developing agents is their user experience (i.e., agent experience). There is a growing need to provide scaffolds for a broader set of individuals beyond AI engineers to prototype agent experiences, since they can contribute valuable perspectives to designing agent experiences. In this work, we explore the…
Towards Learning Multi-Agent Negotiations via Self-Play
January 28, 2019research area Computer VisionWorkshop at ICCV
Making sophisticated, robust, and safe sequential decisions is at the heart of intelligent systems. This is especially critical for planning in complex multi-agent environments, where agents need to anticipate other agents’ intentions and possible future actions. Traditional methods formulate the problem as a Markov Decision Process, but the solutions often rely on various assumptions and become brittle when presented with corner cases. In…
Discover opportunities in Machine Learning.
Our research in machine learning breaks new ground every day.

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み