Apple Machine Learning·2026年2月24日 09:00·約4分

AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク

#マルチモーダル #音声-視覚統合 #エージェント的推論 #ベンチマーク #Apple #複数話者理解

TL;DR

GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。

AI深層分析2026年2月25日 22:41

重要/ 5段階

キーポイント

Apple主導の研究チームがマルチモーダルAIの新たな課題として、複数話者・対話中心のエージェント的推論能力の不足を指摘

AMUSEベンチマークを提案し、既存MLLMが複数話者理解で弱い性能を示すことを実証

RAFTというデータ効率的なエージェント的アライメントフレームワークを開発し、最大39.52%の精度向上を達成

会話型ビデオアシスタントや会議分析など実用的な応用に向けた基盤技術を提供

影響分析・編集コメントを表示

影響分析

この研究は、GPT-4oやQwen3-Omniなどの先進的MLLMでも未解決の複数話者・対話理解という実用的課題に焦点を当て、ベンチマークと改善フレームワークを提供することで、マルチモーダルAIの次世代発展方向を示唆している。特にエージェント的推論と自己評価を組み込んだアプローチは、より自律的で文脈を理解するAIシステムの開発に貢献する可能性が高い。

編集コメント

Appleの研究チームが実用性の高いマルチモーダル課題に取り組む姿勢が明確で、既存モデルの限界を特定し改善策まで提示した点が評価できる。会話AIの次世代進化に影響を与える可能性大。

AMUSE: エージェント的マルチスピーカー理解のための視聴覚ベンチマークおよびアライメントフレームワーク

AMUSE: 視聴覚ベンチマークおよびアライントフレームワーク：エージェント的マルチスピーカー理解のために

著者Sanjay Chowdhury†, Karren D. Yang, Xudong Liu, Fartash Faghri, Pavan Kumar Anasosalu Vasu, Oncel Tuzel, Dinesh Manocha†, Chun-Liang Li**, Raviteja Vemulapalli

出版情報を見る

GPT-4oやQwen3-Omniなどの最近のマルチモーダル大規模言語モデル（MLLM）は強力な知覚能力を示すが、誰が話しているかの追跡、役割の維持、時間軸を超えた出来事の接地を要求する、エージェント的推論を必要とするマルチスピーカーで対話中心の設定には苦戦している。これらのシナリオはマルチモーダルな音声・映像理解の中心であり、会話型ビデオアシスタントや会議分析などのアプリケーションにおいて、モデルは音声と視覚のストリームを統合して推論しなければならない。我々はAMUSEを紹介する。これは本質的にエージェント的であるタスクを中心に設計されたベンチマークであり、モデルが複雑な視聴覚的相互作用を計画、接地、内省のステップに分解することを要求する。これはMLLMを、ゼロショット、ガイド付き、エージェント的の3つのモードと、時空間的スピーカー接地やマルチモーダル対話要約を含む6つのタスクファミリーにわたって評価する。全てのモードにおいて、現在のモデルは弱いマルチスピーカー推論と、非エージェント的およびエージェント的評価の両方における一貫性のない振る舞いを示す。これらのタスクの本質的にエージェント的な性質とLLMエージェントに関する最近の進歩に動機づけられ、我々はRAFTを提案する。これはデータ効率的なエージェント的アライメントフレームワークであり、報酬最適化を、報酬としての本質的なマルチモーダル自己評価、およびデータとパラメータ効率的な更新のための選択的パラメータ適応と統合する。RAFTを使用することで、我々のベンチマークにおいて精度で最大39.52%の相対的改善を達成した。AMUSEとRAFTは合わせて、マルチモーダルモデルにおけるエージェント的推論を検証し、その能力を向上させるための実用的なプラットフォームを提供する。

† メリーランド大学カレッジパーク校

** Apple在籍時の成果

関連する研究と最新情報。

AgentBuilder: インターフェースエージェントのユーザーエクスペリエンスをプロトタイピングするための足場の探求

2026年1月9日研究分野ヒューマンコンピュータインタラクション

生成AIモデルによって駆動されるインターフェースエージェント（「エージェント」と呼ばれる）は、ユーザーのコマンドに基づいてアクションを自動化できる。エージェントを開発する上で重要な側面は、そのユーザーエクスペリエンス（すなわち、エージェントエクスペリエンス）である。AIエンジニア以外のより広範な人々がエージェントエクスペリエンスをプロトタイピングするための足場を提供する必要性が高まっている。なぜなら、彼らはエージェントエクスペリエンスの設計に貴重な視点を貢献できるからである。本研究では、我々は…

セルフプレイによるマルチエージェント交渉の学習に向けて

2019年1月28日研究分野コンピュータビジョンICCVワークショップ

洗練され、堅牢で安全な逐次的意思決定を行うことは、知能システムの核心である。これは特に、エージェントが他のエージェントの意図と将来の可能な行動を予測する必要がある、複雑なマルチエージェント環境における計画にとって重要である。従来の方法はこの問題をマルコフ決定過程として定式化するが、その解法は様々な仮定に依存し、コーナーケースに直面すると脆弱になることが多い。…

機械学習における機会を発見する。

私たちの機械学習研究は、日々新たな領域を切り拓いています。

原文を表示

AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding

AuthorsSanjay Chowdhury†, Karren D. Yang, Xudong Liu, Fartash Faghri, Pavan Kumar Anasosalu Vasu, Oncel Tuzel, Dinesh Manocha†, Chun-Liang Li**, Raviteja Vemulapalli

View publication

Recent multimodal large language models (MLLMs) such as GPT-4o and Qwen3-Omni show strong perception but struggle in multi-speaker, dialogue-centric settings that demand agentic reasoning tracking who speaks, maintaining roles, and grounding events across time. These scenarios are central to multimodal audio-video understanding, where models must jointly reason over audio and visual streams in applications such as conversational video assistants and meeting analytics. We introduce AMUSE, a benchmark designed around tasks that are inherently agentic, requiring models to decompose complex audio-visual interactions into planning, grounding, and reflection steps. It evaluates MLLMs across three modes zero-shot, guided, and agentic and six task families, including spatio-temporal speaker grounding and multimodal dialogue summarization. Across all modes, current models exhibit weak multi-speaker reasoning and inconsistent behavior under both non-agentic and agentic evaluation. Motivated by the inherently agentic nature of these tasks and recent advances in LLM agents, we propose RAFT, a data-efficient agentic alignment framework that integrates reward optimization with intrinsic multimodal self-evaluation as reward and selective parameter adaptation for data and parameter efficient updates. Using RAFT, we achieve up to 39.52% relative improvement in accuracy on our benchmark. Together, AMUSE and RAFT provide a practical platform for examining agentic reasoning in multimodal models and improving their capabilities.

† University of Maryland, College Park

** Work done while at Apple

AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク

#マルチモーダル #音声-視覚統合 #エージェント的推論 #ベンチマーク #Apple #複数話者理解

TL;DR

AI深層分析2026年2月25日 22:41

重要/ 5段階

キーポイント

Apple主導の研究チームがマルチモーダルAIの新たな課題として、複数話者・対話中心のエージェント的推論能力の不足を指摘

AMUSEベンチマークを提案し、既存MLLMが複数話者理解で弱い性能を示すことを実証

RAFTというデータ効率的なエージェント的アライメントフレームワークを開発し、最大39.52%の精度向上を達成

会話型ビデオアシスタントや会議分析など実用的な応用に向けた基盤技術を提供

影響分析・編集コメントを表示

影響分析

編集コメント

AMUSE: エージェント的マルチスピーカー理解のための視聴覚ベンチマークおよびアライメントフレームワーク

AMUSE: 視聴覚ベンチマークおよびアライントフレームワーク：エージェント的マルチスピーカー理解のために

著者Sanjay Chowdhury†, Karren D. Yang, Xudong Liu, Fartash Faghri, Pavan Kumar Anasosalu Vasu, Oncel Tuzel, Dinesh Manocha†, Chun-Liang Li**, Raviteja Vemulapalli

出版情報を見る

† メリーランド大学カレッジパーク校

** Apple在籍時の成果

AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク

キーポイント

影響分析

編集コメント

関連記事

AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク

キーポイント

影響分析

編集コメント

関連記事