Pairwise Evaluations with LangSmith｜LangSmith を用いたペア評価の実装 | AIニュース最前線

![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69cbafd157c432b84a73a8eb_Pairwise-eval---blog.png) モデル出力の評価は、大規模言語モデル（LLM）アプリケーション開発における最も重要な課題の一つです。しかし、チャットや文章作成など多くのタスクにおける人間の嗜好を、一連のルールとして記述することは困難です。その代わりに、複数の候補となる LLM の回答に対するペアワイズ評価（pairwise evaluation）は、LLM に人間の嗜好を教えるためのより効果的な方法となり得ます。 以下では、ペアワイズ評価とは何か、なぜそれが必要なのか、そして LangSmith の最新のペアワイズ評価器を LLM アプリ開発ワークフローでどのように使用するかの実践例について解説します。 ## ペアワイズ評価の起源 ペアワイズ評価は、LLM モデルのパフォーマンスに関するテストやベンチマークの議論において、重要な役割を果たし始めています。例えば、人間のフィードバックからの強化学習（i.e. [RLHF](https://cameronrwolfe.substack.com/p/the-story-of-rlhf-origins-motivations?ref=blog.langchain.com)）は、LLM のアライメントにおいてペアワイズ評価の概念を採用しています。人間のトレーナーには、同じ入力に対する LLM の回答のペアが提示され、特定の基準（例えば、有用性、情報量、安全性など）によりよく合致している方を選択します。 最も人気のある LLM ベンチマークの一つである [Chatbot Arena](https://lmsys.org/blog/2023-05-03-arena/?ref=blog.langchain.com) も、このアイデアを採用しています：特定のユーザープロンプトに対して、2 つの匿名の LLM 生成結果を提示し、ユーザーにどちらが優れているかを選んでもらう仕組みです。Chatbot Arena はペアワイズ評価のために人間のフィードバックに依存していますが、[LLM-as-a-judge](https://www.langchain.com/resources/llm-as-a-judge?ref=blog.langchain.com) を用いて [人間の嗜好を予測](https://huyenchip.com/2024/02/28/predictive-human-preference.html?ref=blog.langchain.com) し、このペアワイズ評価プロセスを自動化することも可能です。 公共ベンチマークや LLM のアライメントにおいて人気が高いにもかかわらず、多くのユーザーはカスタムペアワイズ評価を使用して自身の LLM アプリケーションを改善する方法を知りません。この課題を踏まえ、LangSmith にペアワイズ評価機能を新設しました。 ## LangSmith におけるペアワイズ評価器 LangSmith のペアワイズ評価機能では、ユーザーが (1) 任意の基準を用いてカスタムの LLM-as-judge 評価器を定義し、(2) この評価器を使用して 2 つの LLM 生成結果を比較することができます。比較対象となるランを選択する代わりに、「Datasets and Testing」タブをクリックすると、「Pairwise Experiments」という新しいサブヘッダーが表示されます。 ## これは従来の「比較ビュー」とどう違うのか？ ここで疑問に思う方もいるかもしれません。「これは従来の『比較ビュー』とどう違うのでしょうか？」 もし見逃された方がいれば、数週間前に [回帰テスト](https://blog.langchain.com/regression-testing/) 用の改善された比較ビューをリリースしました。これにより、2 つの実行を比較して回帰を検出できます。ペアワイズ評価も同様の目的を持っていますが、実装方法は大きく異なります。 以前の比較ビューでは、各実行を個別に評価した後にスコアを比較していました。例えば、1 から 10 のスケールで各実行に独立してグレードを与え、一方の実行が他方よりも高いグレードを得たケースを探すというものです。 ペアワイズ評価は結果を**同時に**見ます。これにより、2 つの結果を明示的に比較する評価器を定義できます。その後、そのペアに対してスコアが付与されます。各実行を個別に採点するわけではありません。 ## ペアワイズ評価を使用するのはどのような場合か？ この機能の動機づけとして、[こちら](https://youtu.be/yskkOAfTwcQ?ref=blog.langchain.com) の動画では、コンテンツ生成に関連する一般的なユースケースが紹介されています。この例では、LLM に学術論文を要約した魅力的なツイートを作成させたいと考えています。10 冊の異なる論文を例として含むデータセットを構築し ([こちら](https://smith.langchain.com/public/659b07af-1cab-4e18-b21a-91a69a4c3990/d?ref=blog.langchain.com))、4 つの異なる LLM から要約を生成しました。 LLM に生成させるべき単一の「正解」となる論文要約が存在しないため、[criteria evaluator](https://docs.smith.langchain.com/old/evaluation/faq/evaluator-implementations?ref=blog.langchain.com#criteria-evaluators-no-labels) を使用し、[この](https://smith.langchain.com/hub/rlm/tweet-summary-evaluator/?ref=blog.langchain.com) 評価プロンプトを用いて、絵文字の使用や魅力的なタイトルなどの 5 つの基準に基づき、要約されたツイートを 1（最悪）から 5（最良）まで採点しました。 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69cbafd257c432b84a73a942_image4.png) この要約エンゲージメントスコア（summary_engagement_score）は、以下に示すようにデータセット内に記録されます。 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69cbafd257c432b84a73a93c_image1-2.png) しかし、これですぐに問題が浮き彫りになります。4 つの LLM のうち 3 つが、要約エンゲージメントスコアで**満点**を獲得しており、それらの間に差が見られません。単独で評価するだけでは、各 LLM を区別できる基準 evaluator を定義することが困難です。しかし、ペアワイズ評価（pairwise evaluation）は、この課題に取り組むための代替手段となります。 ## カスタムペアワイズ評価の使用 [動画](https://youtu.be/yskkOAfTwcQ?ref=blog.langchain.com)（ドキュメントは[こちら](https://docs.smith.langchain.com/how_to_guides/evaluation/evaluate_pairwise?ref=blog.langchain.com)）で示されている通り、LangSmith SDK ではカスタムペアワイズ評価器を使用し、LangSmith UI でペアワイズ評価の結果を可視化します。上記の問題に適用するには、まず、関心のある基準（例：タイトルや箇条書きなどに基づいて、2 つのツイート要約のうちどちらがより魅力的か）をエンコードした[ペアワイズ評価プロンプト](https://smith.langchain.com/hub/rlm/pairwise-evaluation-tweet-summary?ref=blog.langchain.com)を定義します。その後、すでにデータセット上で実行済みの任意の 2 つの実験に対して、カスタム評価器 evaluate_pairwise を単に実行するだけです（使用した完全なコードは[こちら](https://github.com/langchain-ai/langchain/blob/667c329770869ea921b80cc7850d73e40134b051/cookbook/langsmith_intro.ipynb?ref=blog.langchain.com)をご覧ください）。 from langsmith.evaluation import evaluate_comparative evaluate_comparative( ["summary-cmd-r-f692a55c", "summary-opus-21590361"], evaluators=[evaluate_pairwise], ) UI では、その後、データセットの「ペアワイズ実験」タブにすべてのペアワイズ評価の結果が表示されます。重要なのは、ペアワイズ評価では特定の LLM に対して明確な選好が示される一方で、単独基準評価ではほとんど差別化が見られない点です。 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69cbafd257c432b84a73a93f_image.png) [この UI](https://smith.langchain.com/public/659b07af-1cab-4e18-b21a-91a69a4c3990/d?paginationState=%7B%22pageIndex%22%3A0%2C%22pageSize%22%3A10%7D&ref=blog.langchain.com) を使用すると、各ペアワイズ実験（pairwise experiment）に詳しく入り込むことができ、私たちの基準に基づいてどの LLM 生成物が優先されるかを示します（列の上部には色と親指のアイコンが表示されます）。各回答の下にあるランク付けスコア（ranked_preference score）をクリックすることで、各評価トレース（evaluation trace）をさらに詳細に確認できます（例は[こちら](https://smith.langchain.com/public/1660c5c9-884a-4e06-9503-e1bab5f19cb3/r?ref=blog.langchain.com)）。これにより、ランク付けの理由が説明されます（これは[私たちのプロンプト](https://smith.langchain.com/hub/rlm/pairwise-evaluation-tweet-summary?ref=blog.langchain.com)で定義された通りです）。 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69cbafd357c432b84a73a948_image2-1.png) ## 結論 テキスト生成やチャットなど、多くの LLM のユースケースでは、評価に使用できる単一の特定の「正解」が存在しません。このような場合、人間または LLM が優先される回答を選択するペアワイズ評価は、非常に強力なアプローチです。 今回のブログ記事では、ツイート要約生成の評価という曖昧なタスクにおいてテストを行った方法と、単独の評価基準の欠点を明らかにしました。私たちの [カスタムペアワイズ評価器](https://smith.langchain.com/hub/rlm/pairwise-evaluation-lcel-answers?ref=blog.langchain.com) を用いることで、生成結果を直接互いに比較し、モデル間の明確な好みを浮き彫りにすることができました。 **さらに詳しく知りたい方は、ペアワイズ評価に関する **[動画](https://youtu.be/yskkOAfTwcQ?ref=blog.langchain.com)** や **[ドキュメント](https://docs.smith.langchain.com/how_to_guides/evaluation/evaluate_pairwise?ref=blog.langchain.com)** をご覧ください。また、プロンプトのバージョン管理、デバッグ、人間の注釈をサポートした堅牢な実験と評価のために、今日から **[LangSmith](https://smith.langchain.com/?ref=blog.langchain.dev) の利用を開始** できます。これにより、LLM アプリケーションの開発中に本番環境での観測性を獲得することができます。** ## 関連コンテンツ ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a2b6498d3e8c89dcee435da_dark-77%20characters%20max.png) LangSmith ## コーディングエージェントの予測可能な動作を実現した方法 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a04956ef84122a36bfc3278_marthajanicki.jpeg) Martha Janicki 2026 年 6 月 15 日 分 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a2b60bb89294179fd4a62eb_plum-77%20characters%20max.png) LangSmith ## エージェントに最適なサンドボックスを選ぶ方法 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69dd2d3bf32d4fc06a289383_rahul-verma.png) Rahul Verma 2026 年 6 月 12 日 分 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a230182ec72c27d00c09ed6_Give%20Your%20Agents%20it%27s%20Own%20Computer.png) LangSmith ## エージェントに専用のコンピューターを与えよう ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a2208d9f4f51f9565792dae_Amy%20ru.jpeg) Amy Ru 2026 年 6 月 5 日 7 分 ## エージェントが実際に何をしているかを確認する LangSmith は、エージェントエンジニアリングプラットフォームであり、開発者がすべてのエージェントの意思決定をデバッグし、評価の変更を行い、ワンクリックでデプロイできるように支援します。

LangSmith を用いたペア評価の実装

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト