新しいコンピューターが LangSmith を活用し、メモリ検索の想起率を 50% 向上させる方法
New Computer は LangSmith を活用して合成データを用いた検証を行い、従来の動的メモリ検索ベースラインと比較して recall が 50%、precision が 40% 向上する成果を達成した。
キーポイント
LangSmith による性能劇的向上
合成ユーザーデータを用いた厳密なテスト環境で LangSmith を活用し、メモリの recall が 50%、precision が 40% 向上したことを実証。
エージェント型メモリシステムの構築
静的ドキュメントに依存しない RAG とは異なり、動的に文書を作成・事前計算する「アジェンシー型メモリ」を採用し、ユーザーの行動や発言から学習。
メタフィールドを活用した高度な検索
ステータス(完了/進行中)や日付などのメタフィールドを併用することで、「今週のタスク」や「今日の残り作業」といった高頻度クエリへの対応を最適化。
プライバシー保護下の合成データ検証
実際のユーザーデータを扱うことなく、LLM で生成したバックストーリーを持つ合成ユーザーコホートを作成し、プライバシーを損なわずに検索アルゴリズムの反復改良を実施。
影響分析・編集コメントを表示
影響分析
本記事は、LLM アプリケーションにおける「長期記憶」の実装において、単なる RAG の拡張ではなく、動的に文書を生成・構造化する新しいパラダイム(アジェンシー型メモリ)への転換を示唆しています。特に、プライバシーを損なわずに合成データを用いてアルゴリズムを高速に反復改善できる手法は、実用化段階にある AI エージェント開発における重要なベストプラクティスとして業界全体に影響を与える可能性があります。
編集コメント
メモリ検索の精度向上という具体的な数値目標を達成した事例は貴重ですが、合成データを用いた評価手法の妥当性や、実際のユーザー環境での挙動との乖離について今後の検証が期待されます。
New Computer について
New Computer は、ユーザーを真に理解するように設計された最初のパーソナル AI「Dot」の開発チームです。Dot の長期記憶システムは、発話や行動の兆候を観察することで、時間の経過とともにユーザーの嗜好を学習します。Dot の記憶システムは単なる検索(recall)を超えており、ユーザーが誰であるかというイメージを絶えず進化させることで、タイムリーかつパーソナライズされた支援を提供し、真の理解があるという感覚を生み出しています。
LangSmith を活用することで、New Computer は自身の記憶検索システムを検証・改善することができ、動的なメモリ検索(dynamic memory retrieval)の以前のベースライン実装と比較して、検索率(recall)が 50% 向上し、精度(precision)が 40% 向上しました。
Dot のエージェント型記憶システム概略
New Computer チームは、革新的で初の試みとなるエージェント型記憶システムを構築しました。静的なドキュメントセットに依存する標準的な RAG(Retrieval-Augmented Generation:検索拡張生成)手法とは異なり、エージェント型記憶では、後から検索されるために動的に作成または事前計算されたドキュメントが関与します。つまり、情報の構造化は記憶の作成段階で行われなければならず、これにより検索が可能になります。また、時間が経過して記憶が蓄積されても、正確かつ効率的な検索を維持する必要があります。
Raw コンテンツに加え、Dot のメモリには検索に有用な一連のオプション「メタフィールド」が存在します。これらにはステータス(例:COMPLETED または IN PROGRESS)や、開始日や期限日などの日時フィールドが含まれます。これらのフィールドは、検索時の高頻度クエリに対する追加のフィルタリング手法として利用できます。例えば、「今週完了させたいタスクは何ですか?」や「今日完了させるべき残りのタスクは何ですか?」といった問いに対応可能です。
LangSmith を用いたメモリ検索の改善
多様な検索手法(セマンティック、キーワード、BM25、メタフィールドフィルタのいずれか、あるいは複数)を備える New Computer にとって、ラベル付き例からなるデータセット上で迅速に反復改良を行う新たな手段が必要でした。ユーザープライバシーを保持しつつパフォーマンスを検証するため、LLM で生成されたバックストーリーを持つ合成ユーザーのコホートを作成し、合成データを生成しました。各合成ユーザーのメモリデータベースを初期化する最初の会話の後、チームは合成ユーザーからのクエリ(メッセージ)と利用可能なメモリの完全セットを LangSmith データセットに格納し始めました。
LangSmith に接続された社内ツールを用いて、New Computer チームは各クエリに関連するメモリにラベル付けを行い、評価指標(precision, recall, F1 など)を定義しました。これにより、エージェント型メモリシステムの検索機能改善のための迅速な反復改良が可能となりました。
今回の一連の実験では、まずクエリごとに固定数の最も関連性の高いメモリを検索するセマンティック検索(semantic search)を用いたシンプルなベースラインシステムから始めました。その後、さまざまな種類のクエリに対するパフォーマンスを評価するために他の手法もテストしました。場合によっては類似度検索や BM25 などのキーワード手法の方が効果的でしたが、他のケースではメタフィールドによる事前フィルタリングが必要でした。
ご想像の通り、これらの複数の手法を並列で実行すると実験の組み合わせが爆発的に増加するため、多様なデータセット上で異なる手法を迅速に検証することが進歩のために不可欠です。LangSmith の使いやすい SDK と Experiments UI により、New Computer はこれらの実験を実行・評価し、結果を検証することを迅速かつ効率的に行うことができました。

LangSmith で New Computer が実行したさまざまな実験における F1 スコア(F1 performance)の概要これらの実験により、New Computer はメモリシステムを大幅に改善し、動的メモリ検索(dynamic memory retrieval)の以前のベースライン実装と比較して、リコール(recall)が50% 向上し、精度(precision)が40% 向上しました。
LangSmith を用いた会話プロンプトの調整
Dot の応答は、動的な会話プロンプトによって生成されます。つまり、関連する記憶を含めるだけでなく、システムは正確で自然な応答を行うために、ツールの使用(例:検索結果)や文脈に即した行動指示にも依存します。
このような高変数のシステムを開発するのは困難を伴います。あるクエリに対して改善をもたらす変更が、他のクエリには悪影響を及ぼす可能性があるからです。
プロンプトの最適化のため、New Computer チームは再び合成ユーザーのコホートを用いて、多様な意図を持つユーザークエリを生成しました。その後、LangSmith の実験 比較ビュー を用いて、プロンプト変更のグローバルな影響を容易に確認することができました。これにより、チームは視覚的に直感的に、プロンプト変更によって生じた性能低下(回帰)のある実行結果を特定できるようになりました。
さらに、出力が不正確だった失敗事例においては、LangSmith のビルトイン・プロンプトプレイグラウンドを使用することで、UI を離れることなく直接プロンプトを調整することが可能でした。これにより、会話プロンプトの評価と調整におけるチームの反復速度が大幅に向上しました。

New Computer の今後の展望
New Computer は人間と AI の関係性を深めることに注力しており、チームはユーザーに真に理解され、受け入れられていると感じてもらうための方法を常に模索しています。これには、Dot がユーザーの会話やトーンの好みに適応できるようにすることや、個別のユーザーごとに完全にカスタマイズされたものとして、ユーザーに対して tailored messages(カスタムメッセージ)を積極的に送り出すことで実現することが含まれます。
最近のローンチにより、新しいユーザー層が流入しました。そのうち 45% 以上は無料メッセージ制限に達した後、アプリの有料プランへ転換しています。これらのユーザーは、Dot が時間とともに自分たちと共に成長し、進化していくことを期待しています。New Computer と LangChain チームとのパートナーシップおよび LangSmith の活用は、チームが新しい AI マテリアルを活用して、人間ユーザーとの関係性の深化に伴う複雑さをシミュレートする方法において、引き続き決定的な役割を果たします。
原文を表示
About New Computer
New Computer is the team behind Dot, the first personal AI designed to truly understand its users. Dot’s long-term memory system learns users preferences over time by observing verbal and behavioral cues. Dot’s memory system goes beyond just recall— it constantly evolves its picture of who the user is in order to provide timely and personalized assistance, creating a perception of true understanding.
With LangSmith, New Computer has been able to test and improve their memory retrieval systems, leading to 50% higher recall and 40% higher precision compared to a previous baseline implementation of dynamic memory retrieval.
A brief overview of Dot’s agentic memory
The New Computer team has built an innovative, first-of-its-kind agentic memory system. Unlike standard RAG methods that rely on a static set of documents, agentic memory involves dynamically creating or pre-calculating documents that will only be retrieved later. This means that information must be structured during memory creation in order to make retrieval possible and, as memories accumulate over time, accurate & efficient.
In addition to the raw content, Dot’s memories have a set of optional “meta-fields” that are useful for retrieval. These include status (e.g. COMPLETED or IN PROGRESS) and datetime fields like start or due date. These can be used as additional filter methods for high-frequency queries during retrieval, such as “Which tasks did I want to get done this week?”, or “What do I have left to complete for today?”
Improving memory retrieval with LangSmith
With their diverse range of retrieval methods— one or multiple of semantic, keyword, BM25, meta-field filter techniques — New Computer needed a new way to iterate quickly on a dataset of labeled examples. To test performance while preserving user privacy, they generated synthetic data by creating a cohort of synthetic users with LLM-generated backstories. After an initial conversation to seed the memory database for each synthetic user, the team began storing queries (messages by synthetic users) along with the full set of available memories in a LangSmith dataset.
Using an in-house tool connected to LangSmith, the New Computer team labeled relevant memories for each query and defined evaluation metrics like precision, recall and F1, allowing them to quickly iterate on improving retrieval for the agentic memory system.
For this set of experiments, they started out with a simple baseline system using semantic search that retrieves a fixed number of the most relevant memories per query. They then tested other techniques to assess performance across different query types. In some cases, similarity search or keyword methods like BM25 worked better; in others, these methods required some pre-filtering by meta-fields in order to perform effectively.
As you might imagine, running these multiple methods in parallel can lead to a combinatorial explosion of experiments— thus, validating different methods quickly on a diverse dataset is crucial for making progress. LangSmith’s easy-to-use SDK and Experiments UI enabled New Computer to run, evaluate, and inspect the results of these experiments quickly and efficiently.

These experiments enabled New Computer to significantly improve their memory systems, leading to 50% higher recall and 40% higher precision compared to a previous baseline implementation of dynamic memory retrieval.
Adjusting the conversation prompt with LangSmith
Dot’s responses are generated by a dynamic conversational prompt— which means that in addition to including relevant memories, the system might also rely upon tool usage (e.g. search results) and highly-contextual behavioral instructions in order to respond in an accurate and natural way.
Developing a highly variable system like this can be challenging, as a change that improves one query can have detrimental effects on others.
To optimize the prompt, the New Computer team again used a cohort of synthetic users to generate user queries for a wide range of intents. They were then able to easily inspect the global effects of prompt changes in LangSmith’s experiment comparison view. This let them identify regressed runs derived from prompt changes in a highly-visual manner.
In addition, in failure cases where the output was inaccurate, the team could directly adjust prompts without leaving the LangSmith UI using the built-in prompt playground. This greatly improved the team’s iteration speed while evaluating and adjusting their conversation prompts.

What’s next for New Computer
As New Computer pushes to deepen human-AI relationships, the team is constantly seeking ways to make users feel truly perceived and understood. This includes enabling Dot to adapt to conversational or tonal preferences of the user, or becoming fully bespoke on a per-user basis by proactively reaching out to users with tailored messages.
Their recent launch has brought in a new wave of users— more than 45% of which converted to the app’s paid tier after hitting the free message limit— who expect Dot to grow and evolve alongside them over time. New Computer’s partnership with the LangChain team and use of LangSmith will remain pivotal to how the team uses novel AI materials to simulate the complexities of a deepening relationship with human users.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み