AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
LangChain Blog·2026年6月17日 03:07·約15分で読める

LangSmith ベンチマークの共有について

#LLM#RAG#LangSmith#ベンチマーク
TL;DR

LangChain は開発した LangSmith のベンチマーク結果を公開し、AI アプリケーションの評価基準に関する重要な情報を提供しました。

AI深層分析2026年6月17日 04:06
3
注目/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

評価基準の標準化

複雑化する AI アプリケーションの開発において、一貫性のある評価基準を提供する LangSmith ベンチマークが公開されました。

2

ベンチマーク結果の透明性

LangChain が独自に実施したテストデータとスコアリング結果を公開することで、業界全体の比較可能性を高めています。

3

開発者への実用支援

この情報は、AI アプリケーションの品質を客観的に測定し、改善に向けた具体的な指針を得るための重要なリソースとなります。

影響分析・編集コメントを表示

影響分析

この記事は、AI アプリケーション開発の現場において、主観的な評価から定量的なベンチマークへの転換を促す重要な一歩となります。LangChain が自社のツールと評価基準を公開することで、業界全体における品質保証の標準化が進む可能性があります。ただし、これは特定のプラットフォームに依存した評価体系であるため、汎用的な比較には注意が必要です。

編集コメント

AI アプリ開発の品質担保において、ベンチマークデータの公開は業界標準化への重要な一歩ですが、特定のプラットフォーム依存に注意が必要です。

開発者がアプリケーションを生産環境に導入する際に最も頻繁に耳にする最大の課題は、テストと評価に関するものです。この困難さは、新しいモデル、新しい検索手法、新しいエージェントタイプ、そして新しい認知アーキテクチャが絶え間なく押し寄せることにより、より一層強く感じられます。

過去数ヶ月の間、私たちは LangSmith を LLM アーキテクチャの評価のための最適な場所へと進化させてきました(テスト比較ビュー、データセットのキュレーション)。本日、評価用データセットと結果を共有可能にし、コミュニティ主導の評価やベンチマークをより容易に実現できるようにしました。また、これらの結果を再現し、アーキテクチャで簡単に実験を行えるよう、新しい langchain-benchmarks パッケージも公開することを楽しみにしています。

テストの共有機能により、LangSmith の誰でもが、異なるアーキテクチャが同じタスクセットでどのようにパフォーマンスを発揮するかに関するすべてのデータとメトリクスを公開できるようになります。追加の利点として、単に最終結果を記録するだけでなく、各評価結果にはテストされたチェーンの完全なトレース(trace)が含まれます。これにより、集計統計やシステムレベルの出力を超えて、同じデータポイントに対する異なるシステムのステップごとの実行プロセスを確認することが可能になります。

🦜

最初に公開するベンチマークは、LangChain の Python ドキュメントを対象とした Q&A データセット です。これらの質問に答えるには、システムが論理的な方法で異なるドキュメントから回答を合成する必要があります。リンクされたページで一般的なアプローチの パフォーマンス を確認し、langchain-benchmarks パッケージを使用して、ご自身のアプリケーションのパフォーマンスを試すことができます。

image
image

LangChain ドキュメント Q&A データセットのビュー。

背景

過去1年間、LLM を活用して構築するためのツールとモデルの品質は、驚異的な速度で改善し続けています。毎週、開発者や研究者によって数十もの新しいプロンプト手法や構成技術が提案され、すべてが優れたパフォーマンス特性を主張しています。LangChain コミュニティでは、chain of density や step-back prompting といった単純なプロンプト手法から、高度な RAG (Retrieval-Augmented Generation: 検索拡張生成) 技術、さらには RL (Reinforcement Learning: 強化学習) チェーン、generative agents (生成型エージェント)、そして BabyAGI などの自律型エージェントに至るまで、これらの多くを実装してきました。構造化生成に関しても、幸いなことに、emotion prompting (感情プロンプト) の手法から、function calling (関数呼び出し) や grammar-based sampling (文法ベースのサンプリング) といった微調整された API へと進化を遂げています。

Hub と LangChain Templates のリリースにより、新しいアーキテクチャの発表ペースはさらに加速しています。しかし、これらのアプローチのうちどれがあなたのアプリケーションでパフォーマンス向上につながるのでしょうか?各手法にはどのようなトレードオフが前提とされているのでしょうか。

シグナルをノイズから分離するのは難しく、選択肢が多すぎるため、信頼性が高く関連性の高いベンチマークがいっそう重要になっています。言語モデルの一般的なタスクに対する評価については、HELM や EleutherAI の Test Harness といった公開ベンチマークが優れた選択肢です。LLM の推論速度やスループットを測定する場合は、AnyScale の LLMPerf ベンチマークが指針となります。これらのツールは言語モデルの基礎的な能力を比較するには優れていますが、必ずしもアプリケーション内での実際の振る舞いを反映しているわけではありません。

LangChain の使命は、LLM を活用して構築することを可能な限り容易にすることであり、それは分野における関連する進展について最新情報を提供し続けることを意味します。LangSmith の評価とトレーシング機能により、アプローチを集計レベルおよびサンプルレベルで簡単に比較でき、各ステップに詳しく入り込んで行動変化の根本原因を特定することも容易になります。

公開データセットと evals を用いれば、関連するデータセット上で任意のリファレンスアーキテクチャのパフォーマンス特性を確認できるため、シグナルとノイズを簡単に分離できます。

📑 LangChain Docs Q&A Dataset

今回取り上げる最初のベンチマークタスクは、LangChain のドキュメントに対する Q&A データセットです。これは、LangChain の Python ドキュメントに基づいて作成した手作業による質問回答ペアのセットです。この質問は、回答が複数のドキュメントからの情報を必要とする場合や、質問がドキュメントの知識と矛盾する場合でも、RAG システムが正しく回答できる能力をテストするために作成されています。

初期リリースの一環として、いくつかの次元で異なるさまざまな実装について評価を行いました。

  • 使用された言語モデル(OpenAI、Anthropic、OSS モデル)
  • 使用された「認知アーキテクチャ」(対話型検索チェーン、エージェント)

上記の リンク を確認して結果をレビューするか、以下の情報に進んでください!

🦜💪 LangChain ベンチマーク

Q&A データセット上で独自のアーキテクチャを実験できるよう支援するため、新しい langchain-benchmarks パッケージ(ドキュメント リンク)を公開します。このパッケージは、LLM を活用して構築する際の主要機能における実験とベンチマークを容易にします。さらに、抽出、エージェントのツール使用、および 検索ベースの質問応答 に関するベンチマークも公開しています。

各データセットに対して、異なる LLM、プロンプト、インデックス化手法、その他のツールを簡単にテストできる機能を提供しており、さまざまな設計決定におけるトレードオフを迅速に評価し、アプリケーションに最適なソリューションを選択できます。

💡

上記のリンクを使ってご自身で試すか、LangChain Benchmarks リポジトリで機能リクエストを開いて新しいタスクをリクエストしてください。

この投稿では、質問応答タスクのいくつかの結果を検証し、その仕組みを紹介しましょう!

シンプルな RAG アプローチの比較

初期ベンチマークにおいて、私たちは以下のテンプレートに基づいて LLM アーキテクチャ(大規模言語モデル)を評価しました:

Cognitive Architecture

TestScore ⬆️ Cosine Dist ⬇️ 🔗 Conversational Retrieval Chain

zephyr-7b-beta a2f30.31 0.18 link

mistral-7b-instruct-4k 08260.46 0.13 link

gpt-4-chat f4cd 0.50 0.15 link

chat-gpt-3.5 1098 0.56 0.12 link

anthropic-chat f290 0.56 0.13 link

Agent

openai-functions-agent dc91 0.47 0.13 link

gpt-4-preview-openai-functions-agent 5832 0.58 0.14 link

anthropic-iterative-search 1fdf 0.50 0.14 link

Assistant

openai-assistant af8e 0.62 0.13 link

上記のリンクから、各設定の結果を表示し、自動メトリクスを用いて比較することができます。これらのテストでは、予測された応答と参照応答間の コサイン距離 を測定するとともに、LangChain の LLM ベースの スコアリング評価器 を用いて精度「スコア」を算出します。精度スコアについては数値が大きいほど良く(⬆️)、コサイン距離については数値が小さいほど良い(⬇️)です。以下に、テストの詳細を説明します。評価器で使用されたプロンプトは こちら をご覧ください。

対話型検索チェーン

以下の実験では、シンプルな検索チェーン実装内で異なるモデルを使用します。入力クエリは OpenAI の text-embedding-ada-002 を用いて直接埋め込まれ、意味的類似性に基づき ChromaDB ベクトルストアから最も関連性の高い 4 つのドキュメントが取得されます。以下に比較対象となる LLM を示します:

  • mistral-7b-instruct-4k 0826: 取得した文書を用いて応答するために、オープンソースの Mistral 7B モデル(コンテキストウィンドウが 4k)を適用します。このモデルは、指示微調整(instruction tuning)によって適応されています。
  • zephyr-7b-beta a2f3: 取得した文書を用いて応答するために、Mistral 7B の指示微調整版であるオープンソースの Zephyr 7B Beta モデルを適用します。
  • chat-3.5-3.5 1098: OpenAI の gpt-3.5-turbo-16k を使用し、取得した文書を用いて応答します。
  • gpt-4-chat f4cd: OpenAI の gpt-4 を使用し、取得した文書に基づいて応答します。
  • anthropic-chat f290: Anthropic の claude-2 を使用し、取得した文書に基づいて応答します。

💡

上記のすべての実行は同じ検索器(retriever)を使用しているため、結果の違いは LLM が取得したデータを推論する能力によるものです。

Agents

以下のテストでは、エージェントアーキテクチャを用いて質問に回答します。各エージェントには、前述のベクトルストア検索器をラップした単一の検索ツールが与えられています。エージェントは直接応答するか、独自のクエリで検索ツールを任意の回数呼び出して質問に回答することができます。実際の実装では、エージェントは通常一度だけツールを呼び出し、その後に応答することが多いことが分かっています。

  • openai-functions-agent dc91: OpenAI の関数呼び出し API(現在は「ツール呼び出し」API と呼ばれています)を使用して、ドキュメント検索器と対話します。この場合、エージェントは gpt-3.5-turbo-16k モデルによって駆動されています。
  • gpt-4-preview-openai-functions-agent 5832: 上記と同じですが、より大規模で能力の高いモデルである新しい gpt-4-1106-preview モデルを使用しています。これは gpt-3.5 よりも優れています。
  • anthropic-iterative-searche 1fdf: 反復検索エージェントを適用し、Anthropic の claude-2 モデルに検索ツールの呼び出しを促すプロンプトを送信し、XML フォーマットを使用して構造化テキスト生成の信頼性を向上させます。

💡

会話型検索チェーンと比較して、上記の結果は検索方法においてばらつきがあります。具体的には、LLM(大規模言語モデル)を使用して関連する検索クエリを生成しています。

Assistant API

最後に、openai-assistant af83 で OpenAI の新しいアシスタント API をテストしました。これも引き続き同じ検索ツールを使用していますが、クエリと最終応答の決定には OpenAI の実行ロジックを利用します。このエージェントは、私たちのすべてのテストの中で最高パフォーマンスを達成しました。

結果のレビュー

比較ビューでは、モデルの動作様子をよりよく理解するために手動で出力を確認することも容易であり、これにより認知アーキテクチャの調整や、特定した失敗モードに対処するための評価手法の更新が可能になります。

例を示しましょう。Mistral-7b を用いた RAG アプリケーションを駆使した会話型検索チェーンと、同様にアーキテクチャされた GPT-3.5 駆動アプリケーションを比較します:(比較リンク。テストされたプロンプトを用いると、GPT-3.5 のパフォーマンスは、この例のために生成された集計指標において Mistral 7B モデルを圧倒的に上回っています(平均コサイン差では 0.01 の差がありますが、「精度」スコアでは 0.1 遅れています)。

*注:これらの実験でテストされたオープンソースモデルのいずれも、市販のプロプライエタリ API の集計パフォーマンスには及びませんでしたが、追加のプロンプトエンジニアリングによってこの格差を縮小できる可能性があります。*

これは興味深い結果ですが、どのように改善するかを決定するには、データを参照する必要があります。LangSmith はこれを容易にします。以下の挑戦的な例をご覧ください:

image
image

パッケージの範囲に関する知識を必要とする挑戦的な質問。このデータポイントにおいては、どちらのモデルも正しく回答できませんでした。この質問自体は「不在」に関する知識を必要とするものであり、これは RAG アプリケーションにとって困難なタスクであり、しばしばハルシネーション(幻覚)を引き起こす原因となります。

目で確認すると、gpt-3.5-turbo モデルは明らかに幻覚を起こしており、ありもしないリンク(https://docs.langchain.com/java-sdk)まで提供しています。mistral モデルの回答の方が好ましいのは、不正確な情報を生成していないためです(公式の LangChain Java SDK は存在しません)。

なぜモデルがそのような反応を示したのかを診断するには、そのアーキテクチャの完全なトレースを表示するためにクリックして遷移できます。

image
image

レスポンスジェネレータートレース(リンク)から明らかなように、取得されたドキュメントはすべて元のクエリに対して非常に無関係です。gpt-3.5 などのモデルを使用していてこのような幻覚が発生する場合は、取得したコンテンツに基づいてのみ回答するようにモデルに促す追加のシステムプロンプトを追加し、レトリバーを改善して無関係なドキュメントをフィルタリングすることを検討できます。

別のデータポイントを確認しましょう。これは、gpt-3.5 が正しく回答した一方で mistral は失敗したケースです。出力を比較すると、mistral はドキュメントの内容に過度に影響され、直接の回答ではなくドキュメントに記載されたクラス名を言及していることがわかります。

image
image

トレースを確認すると、「SelfQueryRetriever」という用語は、取得されたドキュメントのうち 5 番目のドキュメントでのみ言及されており、これが最も関連性の低いドキュメントであることがわかります。大規模言語モデル(LLM)がこのドキュメントに基づいて回答を決定していることは、入力順序を再構成することでパフォーマンスを向上できる可能性を示唆しています。

この仮説を検証するには、プレイグラウンドで LLM の実行を開くことができます。ドキュメント 1 と 5 を入れ替えることで、LLM が正解を返すことが確認できます。この検証に基づき、ドキュメントの提示順序を更新して評価を再実行することも可能です!

image
image

応答の正確性に加えて、LLM アプリケーションを構築する際にもう一つの重要な指標はレイテンシ(応答遅延)です。今回のケースでは、mistral-7b の中央値応答時間は 18 秒で、gpt-3.5 よりも 11 秒高速でした。

image
image

品質指標を「システム指標」と併せて測定することで、タスクに最適な「適切なサイズ」のモデルとアーキテクチャを選択する手がかりとなります。

最後に、openai-assistant af83 と、類似した gpt-4-preview-openai-functions-agent 5832 のテストを比較してみましょう。両者は同じ基盤となるモデルと検索ツールを使用し、エージェントとして動作しますが、前者のテストでは OpenAI のアシスタント API が利用されています。比較結果はこちらで確認できます:リンク。

アシスタントがエージェントを上回るデータポイントの一例はこれです (example)。両者とも、検索エンジン(retriever)が同じであるため、質問に対する明確な回答は表示できないと述べていますが、アシスタントはユーザーへの手がかりとして、「strict」という用語が他の文脈でどのように使用されているかというコンテキストを提供する用意があります。

image
image

今後の予定

今後数週間で、LangChain の最も人気のある ユースケース ごとにベンチマークを追加し、利用を容易にする予定です。更新情報については LangChain ベンチマークリポジトリを確認するか、機能リクエストを開いて、ご自身のユースケースがカバーされるようにしてください。

また、langchain-benchmarks パッケージ をダウンロードして、あなたの RAG アプリケーションをこのタスクや他のタスクで試すこともできます。

原文を表示

The single biggest pain point we hear from developers taking their apps into production is around testing and evaluation. This difficulty is felt more acutely due to the constant onslaught of new models, new retrieval techniques, new agent types, and new cognitive architectures.

Over the past months, we've made LangSmith the best place to go for LLM architecture evaluation (test comparison view, dataset curation). Today we're making it possible to share evaluation datasets and results, to more easily enable community-driven evaluation and benchmarks. We're also excited to share the new langchain-benchmarks package so you can reproduce these results and easily experiment with your architecture.

Test sharing makes it easy for anyone on LangSmith to publish all the data and metrics on how different architectures perform on the same set of tasks. As an added benefit, we're not just logging the end results - each evaluation result includes the full accompanying traces for the tested chains. This means you can go beyond aggregate statistics and system-level outputs and see the step-by-step execution of different systems on the same data point.

🦜

The first benchmark we are releasing is a Q&A dataset over the LangChain python docs. Answering these questions requires the system to synthesize answers from different documents in a logical way. You can review the performance of common approaches in the linked page and try out the performance of your own application using the langchain-benchmarkspackage.

LangChain Docs Q&A dataset view.
LangChain Docs Q&A dataset view.

Background

Over the past year, the tooling and model quality for building with LLMs has continued to improve with breakneck speed. Each week, dozens of new prompting and compositional techniques are proposed by developers and researchers, all claiming superior performance characteristics. The LangChain community has implemented many of these, from simple prompting techniques like chain of density and step-back prompting, to advanced RAG techniques all the way to RL chains, generative agents, and autonomous agents like BabyAGI. For structured generation alone, we have (thankfully) evolved from emotion prompting techniques to fine-tuned APIs like function calling and grammar-based sampling.

With the launch of Hub and LangChain Templates, the release rate of new architectures continues to accelerate. But which of these approaches will translate to performance gains in YOUR application? What tradeoffs are assumed by each technique?

It can be hard to separate the signal from the noise, and the abundance of options makes reliable and relevant benchmarks that much more important. When it comes to grading language models on general tasks, public benchmarks like HELM or EleutherAI’s Test Harness are great options. For measuring LLM inference speed and throughput, AnyScale’s LLMPerf benchmarks can be a guiding light. These tools are excellent for comparing the underlying capability of language models, but they don't necessarily reflect their real-world behavior within your application.

LangChain’s mission is to make it as easy as possible to build with LLMs, and that means helping you stay up to date on the relevant advancements in the field. LangSmith’s evaluation and tracing experience helps you easily compare approaches in aggregate and on a sample level, and it makes it easy to drill down into each step to identify the root cause for changes in behavior.

With public datasets and evals, you can see the performance characteristics of any reference architecture on a relevant dataset so you can easily separate the signal from the noise.

📑 LangChain Docs Q&A Dataset

The first benchmark task we are including is a Q&A dataset over LangChain's documentation. This is a set of hand-crafted question-answer pairs we wrote over LangChain’s python docs. The questions are written to test RAG systems' ability to answer correctly, even if an answer requires information from multiple documents or when the question conflicts with the document's knowledge.

As a part of the initial release, we have evaluated various implementations that differ across a few dimensions:

  • The language model used (OpenAI, Anthropic, OSS models)
  • The "cognitive architecture" used (conversational retrieval chain, agents)

You can check out the link above to review the results or continue with the information below!

🦜💪 LangChain Benchmarks

To help you experiment with your own architectures on the Q&A dataset, we are publishing a new langchain-benchmarks package (docs link). This package facilitates experimentation and benchmarking for key functionality when building with LLMs. In addition to the are publishing benchmarks extraction, agent tool use, and retrieval-based question answering.

For each dataset, we provide functionality to easily test different LLMs, prompts, indexing techniques, and other tooling so you can quickly weigh the tradeoffs in different design decisions and pick the best solution for your application.

💡

Try it yourself using the links above or open a feature request in the LangChain Benchmarks repository to request new tasks.

In this post, we'll review some results from one of the question-answering tasks to show how it works!

Comparing Simple RAG Approaches

In our initial benchmarks, we evaluated LLM architectures based on the following templates:

Cognitive ArchitectureTestScore ⬆️Cosine Dist ⬇️🔗Conversational Retrieval Chainzephyr-7b-beta a2f30.310.18linkmistral-7b-instruct-4k 08260.460.13linkgpt-4-chat f4cd0.500.15linkchat-gpt-3.5 10980.560.12linkanthropic-chat f2900.560.13linkAgentopenai-functions-agent dc910.470.13linkgpt-4-preview-openai-functions-agent 58320.580.142linkanthropic-iterative-search 1fdf0.500.14linkAssistantopenai-assistant af8e0.620.13link

The links above let you view the results for each configuration and compare each using the automatic metrics. For these tests, we measure the cosine distance between the predicted and reference responses as well as an accuracy "score" using LangChain’s LLM-based scoring evaluator. For the accuracy score, a larger number is better (⬆️) and for the cosine distance, a *lower* number is better (⬇️). Below, we describe the tests in more detail. See the prompt used for the evaluator here.

Conversational retrieval chains

The following experiments use different models within a simple retrieval chain implementation. The input query is directly embedded using OpenAI's text-embedding-ada-002, and the four most relevant docs are retrieved from a ChromaDB vectorstore based on semantic similarity. We compare the following LLMs below:

  • mistral-7b-instruct-4k 0826: applies open-source Mistral 7B model (with a 4k context-window) to respond using retrieved docs. This model was adapted using instruction tuning.
  • zephyr-7b-beta a2f3: applies the open-source Zephyr 7B Beta model, which is instruction-tuned version of Mistral 7B, to respond using retrieved docs.
  • chat-3.5-3.5 1098: uses gpt-3.5-turbo-16k from OpenAI to respond using retrieved docs.
  • gpt-4-chat f4cd: uses gpt-4 by OpenAI to respond based on retrieved docs.
  • anthropic-chat f290: uses claude-2 by Anthropic to respond based on retrieved docs.

💡

All of the above runs use the same retriever, meaning that any differences in results are due to the LLM's ability to reason over the retrieved data

Agents

The following tests apply agent architectures to answer the questions. The agents are given a single retriever tool, which wraps the same vector store retriever described above. Agents are able to respond directly or call the retriever any number of times with their own queries to answer a question. In practice, we find that the agents typically call the tool once and then respond.

  • openai-functions-agent dc91: uses the function calling API from OpenAI (now called the 'tool calling' API) to interact with the documentation retriever. In this case, the agent is driven by the gpt-3.5-turbo-16k model.
  • gpt-4-preview-openai-functions-agent 5832: same as above but uses the new gpt-4-1106-preview model, which is a larger, more capable model than gpt-3.5.
  • anthropic-iterative-searche 1fdf: applies the iterative search agent, which prompts Anthropic's claude-2 model to call the retrieval tool and uses XML formatting to improve reliability of the structured text generation.

💡

Compared to the conversational retrieval chain, the above results vary in their retrieval methods. Namely, they use the LLM to generate relevant search queries.

Assistant API

Finally, we tested OpenAI's new assistants API in openai-assistant af83. This still uses our same retrieval tool, but it uses OpenAI's execution logic to decide the query and final response. This agent ended up earning the highest performance of all our tests.

Reviewing the Results

The comparison views also make it easy to manually review the outputs to get a better sense for how the models behave, so you can make adjustments to your cognitive architecture and update the evaluation techniques to address any failure modes you identify.

To illustrate, let's compare the conversational retrieval chain powered by Mistral-7b RAG application to similarly architected application powered by GPT-3.5: (comparison link). Using the tested prompts, GPT-3.5's performance handily outperforms the Mistral 7B model in terms of the aggregate metrics generated for this example (0.01 difference in average cosine difference but lags the average "accuracy" score by 0.1).

*Note: None of the open-source models tested in these experiments matched the aggregate performance of the proprietary APIs off-the-shelf, though additional prompt engineering may close the gap.*

This is interesting, but in order to decide how to improve, you'll need to look at the data. LangSmith makes this easy. Take the following challenging example:

Challenge question requiring knowledge of the scope of the package.
Challenge question requiring knowledge of the scope of the package.

For this data point, neither model was able to answer correctly; the question itself requires knowledge of absence, which is a challenging task for RAG applications that often leads to hallucinations.

When inspecting this by eye, the gpt-3.5-turbo model clearly hallucinates, even providing a nice made-up link (https://docs.langchain.com/java-sdk). The mistral models' response is preferable, since it doesn't generate inaccuracies (no official LangChain java SDK exists).

To diagnose why the models responded the way they did, you can click through to view the full trace of that architecture.

The response generator
The response generator

It's clear from the trace (link) that the retrieved documents are all quite irrelevant to the original query. If you are using a model like gpt-3.5 and getting hallucinations like this, you can try adding an additional system prompt reminding the model to only respond based on the retrieved content, and you can work to improve the retriever to filter out irrelevant documents.

Let's review another data point, this one where gpt-3.5 responded correctly but mistral did not. If you compare the outputs, you can see that mistral was influenced too much by the document content and mentioned the class from the docs rather than the direct answer.

If you look at the trace, you can see that "SelfQueryRetriever" is only mentioned in Document 5 of the retrieved docs, meaning it's the least relevant document. That the LLM hinges its response based on this document signals that perhaps we could improve its performance by re-ordering the input.

To check this hypothesis, you can open the LLM run in the playground. By swapping documents 1 and 5, we can see that the LLM responds with the correct answer. Based on this check, we could update the order we present the documents and re-run evaluation!

Apart from response accuracy, latency is another important metric when building an LLM application. In our case, mistral-7b's median response time was 18 seconds, 11 seconds faster than gpt-3.5's.

Measuring quality metrics alongside "system metrics" can help you pick the "right-sized" model and architecture for the job.

Finally, let's compare the openai-assistant af83 with the similar gpt-4-preview-openai-functions-agent 5832 test. They use the same underlying model and retriever tool and work as an agent, but the former test uses OpenAI's assistant API. You can view the comparison here: link.

An example data point where the assistant out-performs the agent is this (example). Both say that they cannot see an explicit answer to the question (since the retriever is the same), but the assistant is willing to provide context on how strict is used in other contexts as a pointer for the user.

More to come

Over the coming weeks, we plan to add benchmarks for each of LangChain’s most popular use cases to make it easier. Check in on the LangChain benchmarks repository for updates and open a feature request to ensure that your use cases are covered.

You can also download the langchain-benchmarks package to try out your RAG application on this and other tasks.

この記事をシェア

関連記事

Hugging Face Blog★42026年6月19日 03:13

MosaicLeaks:研究エージェントは秘密を守れるか?

Hugging Face は、AI エージェントが機密情報を漏洩するリスクを検証する「MosaicLeaks」という評価フレームワークを発表した。

Allen AI (AI2)★42026年6月18日 17:00

Domyn と AISquared が Ai2 のオープンリリースをどう活用したか

Domyn と AISquared は、透明性やライセンス管理が不可欠な規制業界向けに AI モデルを開発する際、Ai2 のオープンソースリリースを活用している。これにより顧客の信頼とコンプライアンス確保を実現している。

Latent Space★42026年6月19日 14:53

[AINews] GLM は GPT より優れているか?GLM-5.2 が実用性を証明、Z.ai が 12 月までに「Open Fable」を公開予定

Latent Space のニュースでは、中国のモデル「GLM-5.2」がベンチマークで優れた結果を示し実用性があると評価されたことと、Z.ai が 12 月までにオープンソースプロジェクト「Open Fable」を発表する見込みについて報じられています。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む