Microsoft Research の最新記事
公式19件の記事
ADeLe: AIのタスク横断的性能予測と説明
マイクロソフトの研究チームが、AIモデルの18の核心能力を評価し、タスク要求とモデル能力を直接比較できるADeLeを開発した。この手法は新規タスクでの性能を約8%の誤差で予測できる。
AsgardBench: 視覚に基づく対話型計画のためのベンチマーク
マイクロソフトが、視覚的フィードバックに基づいて計画を修正できるAIエージェントを評価するベンチマーク「AsgardBench」を発表した。12種類のタスクで108の制御されたタスクインスタンスを対象とする。
GroundedPlanBench: ロボット操作のための空間的に接地された長期タスク計画
Microsoftの研究チームは、VLMベースのロボット計画モデルが複雑な長期タスクで直面する曖昧性問題を評価するGroundedPlanBenchを開発した。このベンチマークは、モデルが多様な実世界シナリオで行動とその発生場所を計画できるかを測定する。
機械はいつか知能を持つのか?
マイクロソフトリサーチのダグ・バーガーら専門家が、技術者・政策立案者・企業関係者向けに、AI移行を前向きに進めるための共通理解を深める取り組みを紹介している。
AIエージェントの体系的デバッグ:AgentRxフレームワークの紹介
マイクロソフトが、長く確率的で多エージェントの軌跡により根本原因が埋もれるAIエージェントのデバッグ問題に対し、ツールスキーマとドメインポリシーから制約を合成し最初の回復不能ステップを特定するAgentRxフレームワークを発表した。
生の相互作用から再利用可能な知識へ:AIエージェントのメモリ再考
マイクロソフトが、AIエージェントのメモリ問題を解決する「PlugMem」を発表した。現在のAIエージェントは長い対話履歴を保存するが再利用が困難で、生のメモリ検索は長く価値の低い文脈でエージェントを圧倒する。PlugMemは対話履歴を構造化された再利用可能な知識に変換し、単一の汎用メモリモジュールで多様なエージェントベンチマークの性能を向上させる。
Phi-4-reasoning-visionとマルチモーダル推論モデル訓練の教訓
マイクロソフトは、Phi-4-reasoning-vision-15Bというコンパクトで効率的なマルチモーダル推論モデルを開発し、視覚言語タスクや数学・科学推論に優れる性能を実現した。同社はその訓練プロセスから得られた教訓を共有している。
予告編:来たるべきものの形
マイクロソフトの研究リーダー、ダグ・バーガーと各分野の専門家が、技術者や政策立案者などが直面するAIの最も困難な問題について議論し、AI移行が純利益となる未来を築くための共通理解を深めることを目指している。
CORPGENが実務向けAIエージェントを進化させる
CORPGENは、複数の相互依存タスクを同時管理する「Multi-Horizon Task Environments(MHTEs)」を開発した。現在のAIエージェントは多タスク負荷で完了率が16.7%から8.7%に急低下する課題を解決する取り組み。
実践におけるメディア真正性手法:能力、限界、方向性
合成メディアの増加に伴い、コンテンツの真偽と出所の検証が重要になっています。本報告では、画像・音声・動画の真正性確認手法とその限界、信頼できる出所追跡への実践的アプローチを探ります。
プロジェクトシリカのガラスストレージ技術における進展
プロジェクトシリカがボロシリケートガラスへのデータ記録技術を進化させ、コスト削減とシステム簡素化を実現。1万年のデータ保存を可能にする。
予測的逆動力学モデルによる模倣学習の再考
予測的逆動力学モデルは、次の状態を予測することで曖昧さを減らし、少ないデモンストレーションで標準的な行動模倣を上回る性能を発揮する理由を探る研究。
Paza: 低リソース言語のための自動音声認識ベンチマークとモデルの紹介
Microsoft Researchが、低リソース言語向けの人間中心の音声パイプライン「Paza」と初のリーダーボード「PazaBench」を発表。39のアフリカ言語と52のモデルをカバーし、実環境でコミュニティと共にテスト。
UniRG:マルチモーダル強化学習による医療画像レポート生成のスケーリング
UniRGは強化学習を用いて、異なる報告様式に対応した医療画像レポート生成AIの性能を向上させる手法です。