抽象化と具体性のバランスを取る調和型メモリ表現「Memora」の発表
Microsoft Research は、長期タスクにおける AI エージェントの記憶効率を劇的に向上させる「Memora」フレームワークを発表し、既存手法を凌駕する性能と 98% のトークン削減を実現した。
キーポイント
記憶と検索の分離アーキテクチャ
Memora は、保存する情報の「豊かさ」と、検索時の「軽量化」を分離する独自の設計を採用し、詳細なコンテキストを保持しつつ検索コストを劇的に削減します。
具体性と抽象化のトレードオフ解消
既存システムが直面していた「詳細情報の保持」と「効率的な組織化」の二律背反を打破し、両方を同時に実現する新しい記憶表現を実現しました。
圧倒的な効率性と性能向上
LoCoMo や LongMemEval などのベンチマークで SOTA を更新し、同等以上の性能を出しながらコンテキストトークンを最大 98% 削減することに成功しました。
長期ホリズンタスクへの対応
数ヶ月にわたるプロジェクト管理やドメイン専門性の構築など、従来の LLM が苦手とする長期・複雑なタスクにおけるエージェントの生産性を飛躍的に高めます。
記憶の保存と検索の分離
Memora は記憶内容を豊かに保ちつつ、インデックスと検索を軽量な別レイヤーで処理することで、情報の統合と詳細の提示を両立します。
調和的な組織化による抽象度と具体性のバランス
主要な要約(6〜8語)と豊富な記憶値を分離し、類似検索には要約のみを使用することで、情報の断片化を防ぎつつ必要な詳細にアクセス可能にします。
文脈に応じたキューアンカーの活用
各記憶から抽出された文脈認識タグ(キューアンカー)が代替の検索経路となり、柔軟で有機的に生成されるメタデータとして機能します。
影響分析・編集コメントを表示
影響分析
この発表は、AI エージェントが短期の対話から長期の継続的なタスク実行へと進化するための決定的な技術的転換点となります。特にコンテキストウィンドウの制限という根本的な課題に対し、アーキテクチャレベルで解決策を示したことで、産業用 AI アシスタントや自律型研究エージェントの実用化スピードを加速させる可能性があります。
編集コメント
コンテキストウィンドウの物理的限界に直面する中で、記憶構造そのものを再設計したこのアプローチは、実務レベルでの長期タスク処理を可能にする重要な一歩です。

一目でわかる要点
現在の AI エージェントは過去の対話を記憶していません。関連情報を繰り返し入力するか、外部ソースから取得する必要があり、より長く複雑なタスクを処理するにつれて非効率になります。エージェントの能力を拡張するには、時間をかけて情報を保持しアクセスするためのより効率的な方法が必要です。
Memora は、保存されるもの(豊富なメモリコンテンツ)と検索される方法(軽量な抽象化およびキューアンカー)を分離することで、長期ホライズンタスクにおけるエージェントの生産性を劇的に向上させるスケーラブルなメモリシステムです。これは抽象化と具体性のバランスを取ります。
Memora は LoCoMo および LongMemEval で新たな最先端記録を樹立し、Mem0、RAG(Retrieval-Augmented Generation:検索拡張生成)、およびフルコンテキスト推論を上回る性能を発揮しながら、コンテキストトークンを最大 98% 削減します。
Memora の論文は ICML 2026 で発表されました。Memora のコードは https://github.com/microsoft/Memora で利用可能です(新しいタブで開く)。
数ヶ月にわたるプロジェクトを運営するのを支援する職場用 AI アシスタントを想像してみてください。数週間にわたる会話を通じて、あなたは制約事項を共有し、マイルストーンに合意し、期限を見直し、何十もの利害関係者の好意を引き出します。後で同僚への更新文書を作成するよう依頼された際、それは最新の決定だけでなく、そこに至るまでの旅路——何が試され、何が却下され、誰が意見を述べたか——を思い出すべきです。現在の AI エージェントはこの点で苦戦しています。現代の大規模言語モデル(LLM)は強力な推論能力を持ちますが、実質的に状態を持たない(stateless)ものです:すべてのセッションはゼロから始まり、長い会話はモデルに履歴全体を読み直させることを強要し、新しい情報は生テキストとして断片的かつノイズの多い状態で保存されるか、曖昧な要約へと圧縮され(詳細情報が失われます)。AI アシスタントや自律型エージェントが数ヶ月にわたるプロジェクトを追跡するコパイロットや、長期間の使用を通じてドメイン専門知識を築く研究用エージェントなど、長期展開に移行するにつれ、原理的なメモリシステムの欠如が決定的なボトルネックとなっています。
このギャップを埋めるための研究は着実に増えています。Mem0 のようなシステムは会話から原子的事実を抽出し、検索拡張(RAG)アプローチは後日の想起のために生テキスト断片にインデックスを付けます。また、Zep や GraphRAG などのグラフベースのメモリシステムは、エンティティ間の関係を通じて構造を課します。それぞれが真の進歩を表していますが、いずれも同じ壁にぶつかります。既存の設計では、詳細さ(微細な詳細を保持すること)と抽象化(成長するメモリを効率的に整理すること)の間で避けられないトレードオフを強いられます。Memora は、エージェントに対してこの両方を与えるために構築されました。
Memora とは何か
Memora は、長期の AI エージェント向けに設計されたエージェント型メモリフレームワークです。Memora の中心的な洞察は、何を保存するかをどのように検索するかから分離することにあります。メモリコンテンツは、プロジェクトのタイムラインや制約に関する多段階の議論など、豊かで表現力豊かなまま維持できます。一方、インデックス付けと検索を担当するのは、別個で軽量な構造的レイヤーです。その結果、スケーラブルなメモリシステムが実現されます。関連する情報を安定した単位に統合し、必要な時に微細な詳細を表面化し、エージェントがすべてを読み直すことなく自らの履歴をナビゲートできるようにします。標準的な長文会話ベンチマークにおいて、Memora はフルヒストリをコンテキストにダンプした場合よりも最大 98% 少ないトークン数で、新たな最先端性能を達成しています。
なぜこれが難しいのか:抽象化と詳細さの緊張関係
既存のメモリシステムは二つの極端に分かれています。RAG や Mem0 などのコンテンツ断片化システムでは、抽出された事実やテキスト断片がそのまま埋め込まれます。これは詳細を保持しますが、物語的な一貫性を失い、脆く孤立したエントリを生み出してしまいます。一方、粗い抽象化システムは経験をコンパクトな要約に圧縮します。効率的ですが、要約によってメモリが本来持つ有用性を与える制約、エッジケース、数値詳細などが削ぎ落とされてしまいます。グラフベースのシステムはコンテンツの上に構造を追加しますが、依然として検索にはコンテンツ自体に依存しており、ドメイン横断的な一般化ができない硬直したオントロジーを必要とする傾向があります。これらいずれも、メモリ効率性を保つ抽象化と、メモリの実用性を与える具体性の間の根本的な緊張関係を解決していません。
image図 1: Memora のアーキテクチャ概要。
Memora の仕組み
Memora は調和的な組織化によってこの緊張関係を解消します。各メモリエントリは 2 つのコンポーネントから構成されます:1 つ目は、そのメモリが本質的に何についてのものであるかを捉える短いフレーズ(6〜8 語)である主要な抽象化であり、2 つ目は豊富なコンテンツ自体を保持するメモリ値です。決定的に重要なのは、類似度検索のために埋め込まれるのは主要な抽象化のみであり、メモリ値はそれ自身のコンテンツを通じて直接検索されないということです。この分離により、進化中のトピックに関する新しい情報は、部分的な重複の連鎖として断片化するのではなく、同じ主要な抽象化の下で既存のメモリエントリに統合されます。主要な抽象化を補完するものとして、キューアンカー(文脈認識タグ)があります。これらは各メモリの値から抽出された短いタグであり、同一メモリへの代替アクセス経路を提供します。これらは柔軟で有機的に生成されるメタデータとして機能します。
これを具体化しましょう:ユーザーが「デイブとサラは、プロトタイプを 4 月 1 日、パイロット版を 5 月 2 日、MVP を 5 月 30 日に延期することに合意した」と言ったと仮定します。知識グラフシステムでは、事前に定義されたエンティティ型と関係スキーマが必要です:Person → agreed_on → Milestone → has_date → Date(人→同意日付→マイルストーン→日付を持つ→日付)であり、新しい関係タイプが現れた場合、スキーマの拡張が必要になります。Memora では、「デイブとサラが合意したプロジェクト・オリオンの更新されたタイムライン」という主要な抽象化が、正統的なアクセスポイントとして機能します。一方、「デイブ プロジェクト・オリオンの更新」「プロジェクト・オリオンのプロトタイプスケジュール」「プロジェクト・オリオンのパイロットタイムライン」などのキューアンカー(検索手がかり)が、代替の検索経路を提供します。これらはすべて、オントロジーにコミットすることなく実現されます。後からデイブの最近の貢献や、プロトタイプのスケジュール、パイロットの実施時期について問い合わせがあっても、異なるキューを通じて同じ基盤となるメモリへルーティングされ、詳細はメモリ値内に完全に保持されます。
この表現の上に、Memora は記憶アクセスを能動的な推論プロセスとみなすポリシー誘導型検索器を導入します。単一のショットで意味的に類似した上位 k 個のアイテムを返すのではなく、ポリシー検索器はクエリを反復的に精緻化し、キューアンカーを通じて拡張して関連するが類似していない記憶を表面化し、いつ停止するかを決定します。これにより、エージェントは純粋な意味的検索では見逃してしまう関連する非局所的コンテキストへと移動でき、人間が関連する出来事を想起する際に追跡するように、マルチホップ依存関係を追求します。この検索ポリシーは、強力な大規模言語モデル(LLM)を用いて手動でプロンプト指定することも可能であり、強化学習を通じてはるかに小さなモデルに蒸留することも可能です。

Azure AI Foundry Labs
Microsoft Research のこれらの実験的技術を通じて、AI の将来の可能性ある方向性の一瞥を得てください。
Azure AI Foundry
新しいタブで開く
結果
image図 2: LoCoMo データセットにおける Memora のパフォーマンス。
Memora の評価は、2 つの長文コンテキストベンチマークにおいて行われました。1 つ目は平均 600 ターンに及ぶ対話を含む LoCoMo、もう 1 つ目は 115,000 トークンのコンテキストを持つ LongMemEval です。Memora は両方のベンチマークで新たな最高性能を達成し、LoCoMo では LLM ジャッジによる精度が 86.3%、LongMemEval では 87.4% を記録しました。これは RAG、Mem0、Nemori、Zep、LangMem、さらにはフルコンテキスト推論をも上回る結果です。この差が最も顕著なのは多段推論においてであり、ここでは Memora のキューアンカー(手がかりの足場)を横断する能力が最大の成果をもたらしています。
効率性に関する物語もまた驚くべきものです。Memora は 1 回の会話あたり、Mem0 が保持するメモリエントリの約半分(344 vs. 651)しか保存せず、フルコンテキスト推論と比較してトークン消費量を最大で 98% 削減します。読むものも少なく、保存するものも少なく、しかし答えはより良くなります。
Looking forward
Memora の設計はベンチマーク性能を超えた意味を持ちます。私たちはこの取り組みを、単一のセッション内だけでなく、数ヶ月から数年にわたってユーザーとの長期的な協働を維持し、組織的な知識を蓄積できる AI エージェントへの一歩として捉えています。この基盤の上に、私たちはいくつかの補完的な方向性を追求しています。MemLoop は、メモリシステムが検索やタスクの失敗からどのように学習するか、エラーをメモリのパイプラインの特定の段階に帰属させ、時間とともに自己改善する方法を探ります。Deferred Memory(遅延メモリ)は、記憶の構築をいつ延期すべきか、すなわち、何を保存すべきかに早急にコミットするのではなく、十分な文脈や証拠、あるいは将来の利用価値が得られるまで待つべきかを調査します。Group Memory は、知識をチーム間やエージェント間で共有しつつ、その出所(プロベナンス)、アクセス境界、所有権、および機密性の高いコンテキストをどのように保持するかを検討します。私たちは論文とともにコードも公開し、コミュニティに対してこの表現形式に基づいて構築し、AI エージェントがステートレスではなくなったときに何が可能になるかを探索することを呼びかけます。
謝辞
本研究プロジェクトに貢献いただいた Shantanu Dixit(研究フェロー)、Paramaguru Harimurugan(研究フェロー)、Rujia Wang、Victor Rühle、Robert Sim に感謝いたします。
新しいタブで開く:本記事「Memora: A Harmonic Memory Representation Balancing Abstraction and Specificity」は、Microsoft Research の投稿として初めて公開されました。
原文を表示

At a glance
Today’s AI agents don’t remember past interactions. They must repeatedly be fed relevant information or retrieve it from external sources, which becomes less efficient as they handle longer and more complex tasks. To scale agent capabilities, we need a more efficient way to retain and access information over time.
Memora is a scalable memory system that dramatically increases agent productivity on long-horizon tasks by decoupling what is stored (rich memory content) from how it’s retrieved (lightweight abstractions and cue anchors), balancing abstraction and specificity.
Memora sets new state-of-the-art on LoCoMo and LongMemEval, outperforming Mem0, RAG, and full-context inference while using up to 98% fewer context tokens.
Memora paper (opens in new tab) is published at ICML 2026. Memora code is available at https://github.com/microsoft/Memora (opens in new tab).
Imagine a workplace AI assistant helping you run a multi-month project. Over weeks of conversations, you share constraints, agree on milestones, revise deadlines, and surface dozens of stakeholder preferences. When you later ask it to draft an update for a colleague, it should recall not just the latest decision but the journey that got you there: what was tried, what was ruled out, who weighed in. Today’s AI agents struggle with this. Modern large language models (LLMs) are powerful reasoners, but they are effectively stateless: every session starts from zero, every long conversation forces the model to re-read its entire history, and every new piece of information is either stored as raw text (fragmented and noisy) or compressed into a vague summary (precise details lost). As AI assistants and autonomous agents move into long-horizon deployments, such as copilots that tracks a project for many months or even research agents that build up domain expertise with long horizon usage, the absence of principled memory system has become the critical bottleneck.
A growing line of work has begun to fill this gap. Systems like Mem0 extract atomic facts from conversations; retrieval-augmented (RAG) approaches index raw text fragments for later recall; and graph-based memory systems such as Zep and GraphRAG impose structure through entity relations. Each represents real progress, yet each runs into the same wall: existing designs force an unavoidable tradeoff between specificity (preserving fine-grained detail) and abstraction (organizing memory efficiently as it grows). Memora is built to give agents both.
What is Memora
Memora is an agentic memory framework designed for long-horizon AI agents. Memora’s central insight is to decouple what is stored from how it is retrieved. Memory content can remain rich and expressive, such as a project timeline, a multi-turn discussion about constraints, while a separate, lightweight structural layer handles indexing and retrieval. The result is a memory system that scales: it consolidates related information into stable units, surfaces fine-grained details when they matter, and lets the agent navigate its own history without re-reading everything. On standard long-conversation benchmarks, Memora sets new state-of-the-art performance while using up to 98% fewer tokens than would be consumed by dumping the full history into context.
Why this is hard: the abstraction–specificity tension
Existing memory systems fall into two extremes. Content-fragmentation systems, such as RAG and Mem0, embed extracted facts or text fragments directly. This preserves detail but produces brittle, isolated entries that lose narrative coherence. Coarse-abstraction systems compress experience into compact summaries. They are efficient, but summarization strips away the constraints, edge cases, and numeric details that make memory useful in the first place. Graph-based systems add structure on top of content, yet still rely on the content itself for retrieval and typically require rigid ontologies that don’t generalize across domains. None of these resolves the underlying tension between abstraction (which keeps memory efficient) and specificity (which gives memory utility).
imageFigure 1: Architecture overview of Memora.
How Memora works
Memora resolves this tension through a harmonic organization. Each memory entry has two components: a primary abstraction, which a short phrase (6–8 words) that captures what the memory is fundamentally about, and a memory value holding the rich content itself. Crucially, only the primary abstraction is embedded for similarity search; the value is never directly retrieved through its own content. This separation means new information about an evolving topic merges into the existing memory entry under the same primary abstraction, rather than fragmenting into a chain of partial duplicates. Complementing primary abstractions, cue anchors are short, context-aware tags extracted from each memory’s value, providing alternative access paths to the same memory. They function as flexible, organically-generated metadata.
To make this concrete: suppose a user says, “Dave and Sarah agreed to push the prototype to April 1, the pilot to May 2, and the MVP to May 30.” A knowledge-graph system would need predefined entity types and relation schemas: Person → agreed_on → Milestone → has_date → Date, and any new relation type would require schema extension. In Memora, the primary abstraction Updated Project Orion timeline agreed by Dave and Sarah serves as the canonical access point, while cue anchors like Dave Project Orion update, Project Orion prototype schedule, and Project Orion pilot timeline provide alternative retrieval paths — all without committing to an ontology. A later query about Dave’s recent contributions, or the prototype schedule, or pilot timing can all route to the same underlying memory through different cues, with the full detail preserved in the memory value.
On top of this representation, Memora introduces a policy-guided retriever that treats memory access as an active reasoning process. Rather than returning the top-k semantically similar items in a single shot, the policy retriever iteratively refines its query, expands through cue anchors to surface related-but-not-similar memories, and decides when to stop. This lets the agent navigate to relevant non-local context that pure semantic search would miss, chasing multi-hop dependencies the way a human would when recalling connected events. The retrieval policy can be either hand-prompted with a strong LLM or distilled into a much smaller model via reinforcement learning.
image
Azure AI Foundry Labs
Get a glimpse of potential future directions for AI, with these experimental technologies from Microsoft Research.
Azure AI Foundry
Opens in a new tab
Results
imageFigure 2: Memora performance on LoCoMo dataset.
We evaluate Memora on two long-context benchmarks: LoCoMo, where dialogues average 600 turns, and LongMemEval, with 115,000-token contexts. Memora achieves new state-of-the-art performance on both: 86.3% LLM-judge accuracy on LoCoMo and 87.4% on LongMemEval, outperforming RAG, Mem0, Nemori, Zep, LangMem, and even full-context inference. The gap is largest on multi-hop reasoning, where Memora’s ability to traverse cue anchors pays the biggest dividends. The efficiency story is just as striking: Memora stores roughly half the memory entries per conversation that Mem0 does (344 vs. 651) and reduces token consumption by up to 98% relative to full-context inference. Less to read, less to store, better answers.
Looking forward
Memora’s design has implications beyond benchmark performance. We see this work as a step toward AI agents that can sustain long-term collaboration with users and accumulate organizational knowledge over months and years, not just within a single session. Building on this foundation, we are pursuing several complementary directions. MemLoop explores how memory systems can learn from retrieval and task failures, attribute errors to specific stages of the memory pipeline, and improve themselves over time. Deferred Memory investigates when memory construction should be postponed until sufficient context, evidence, or future utility becomes available, rather than committing prematurely to what should be stored. Group Memory examines how knowledge can be shared across teams and agents while preserving provenance, access boundaries, ownership, and sensitive context. We release our code alongside the paper and invite the community to build on this representation and explore what becomes possible when AI agents are no longer stateless.
Acknowledgements
We would like to thank Shantanu Dixit (Research Fellow) Paramaguru Harimurugan (Research Fellow), Rujia Wang, Victor Rühle, and Robert Sim for contributing to this project.
Opens in a new tabThe post Memora: A Harmonic Memory Representation Balancing Abstraction and Specificity appeared first on Microsoft Research.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み