Align Evals の紹介:LLM アプリケーション評価の効率化
LangChain は、大規模言語モデル(LLM)アプリケーションの開発・運用における評価プロセスを標準化し簡素化する新ツール「Align Evals」を発表した。
キーポイント
評価プロセスの標準化と簡素化
複雑に散在する LLM アプリの評価手法を一元化し、開発者が一貫性のある評価フレームワークを迅速に構築・適用できる仕組みを提供する。
アプリケーション品質の可視化
LLM の出力がビジネス要件や期待値に対してどの程度合致しているかを定量的かつ定性的に測定し、改善点を明確にする機能を強化する。
開発ワークフローへの統合
既存の LangChain エコシステムとシームレスに連携し、CI/CD パイプラインや開発サイクルに評価プロセスを自然に組み込むことを可能にする。
影響分析・編集コメントを表示
影響分析
この発表は、LLM アプリケーション開発の成熟度を高める上で重要な一歩であり、特に品質保証(QA)と継続的改善のプロセスを標準化する業界の動きを示しています。開発者が評価の複雑さに悩まされず、本質的な機能強化にリソースを集中できる環境を整えることで、実社会への LLM 導入スピードが加速すると予想されます。
編集コメント
LLM アプリの実用化において「作ること」だけでなく「正しく評価すること」の重要性が高まる中、LangChain が提供するこのツールは開発者の負担を減らす実用的な解決策と言えます。
評価は、単一のプロンプトに取り組んでいる場合でも、複雑なエージェントを構築している場合でも、アプリケーションを改善するための重要な技術です。モデルの比較やロジックの更新、アーキテクチャの反復改良を行う際、評価は出力にスコアを付け、変更がもたらす影響を理解するための信頼できる手段となります。
しかし、私たちがチームから一貫して聞く大きな課題の一つは、「私たちの評価スコアは、チーム内の人間が言うべき内容と一致しない」という点です。この不一致により、ノイズの多い比較が行われ、偽のシグナルを追いかけることで時間が浪費されてしまいます。
そのため、私たちはAlign Evalsを導入しました。これは LangSmith の新機能で、評価者が人間の嗜好によりよく合致するようにキャリブレーション(較正)を支援するものです。この機能は、LLM-as-a-judge 型の評価器を構築する方法について記された Eugene Yan の記事 にインスパイアされています。
この機能は、今日からすべての LangSmith Cloud ユーザーに対して利用可能となり、今週後半に LangSmith Self-Hosted 版にもリリースされます。まずは ビデオのウォークスルー をご覧いただくか、開発者向けドキュメント をお読みいただき、ご活用ください。
LLM-as-a-judge 評価器の作成がより容易に
これまで、評価器の反復作業には多くの推測が必要でした。評価器の動作における傾向や不整合を特定するのは難しく、評価器のプロンプトに変更を加えた後でも、どのデータポイントがスコアの推移を引き起こしたのか、あるいはなぜそうなったのかを明確に把握できないことがよくありました。
この新しい LLM-as-a-Judge 整列機能により、以下が可能になります:
- 評価器プロンプトの反復作業と、評価器の「整列スコア」の確認ができるプレイグラウンドのようなインターフェース
- 人間による採点データと LLM が生成したスコアの並列比較。ソート機能を用いて「未整列」ケースを特定可能
- プロンプトの最新変更点を以前のバージョンと比較するための、保存されたベースラインの整列スコア

仕組みについて
整列フローの動作は以下の通りです:
1. 評価基準の選択
最初のステップは、適切な評価基準を特定することです。評価基準には、アプリケーションがうまく行うべき項目を含める必要があります。例えば、チャットアプリを構築している場合、正確性は重要ですが、簡潔性も同様に重要です。要点に到達するために多くの段落を要する技術的に正確な回答であっても、ユーザーをイライラさせることになります。
2. 人間によるレビュー用のデータ選択
アプリから代表的な例のセットを作成してください。これには良い例と悪い例の両方を含める必要があります。目標は、アプリが実際に生成する可能性のある出力の範囲を網羅することです。例えば、カスタマーサポートアシスタントに回答させる新製品を追加している場合、正しい応答と誤った応答の両方を含めてください。
3. 期待されるスコアでデータを評価する
各評価基準について、各例に対して手動でスコアを割り当てます。これらのスコアが「ゴールデンセット」となり、評価者の回答を判断するためのベンチマークとして機能します。
4. 評価者プロンプトを作成し、人間の評価と比較してテストする
LLM 評価者のための初期プロンプトを作成し、アライメント結果を用いて反復的に改善してください。プロンプトの各バージョンについては、人間が評価した例に対してテストを行い、LLM のスコアがあなたのスコアとどの程度一致するかを確認します。
例えば、LLM が特定の応答を常に過大評価する場合は、より明確なネガティブ基準を追加してみてください。評価者スコアの改善は反復的なプロセスとして行われることを意図しています。プロンプトの改善に関するベストプラクティスについては、ドキュメントをご覧ください。
次のステップは?
私たちはまだ始まったばかりです。これは、より優れた評価者を作成するお手伝いをするための最初のステップです。今後、以下が期待されます:
- エバリュエーターのパフォーマンスが時間とともにどのように進化するかを追跡できる分析機能。
- 自動プロンプト最適化機能:プロンプトのバリエーションを自動的に生成します!
ぜひお試しください。まずは 開発者ドキュメント にアクセスするか、ビデオチュートリアル をご覧ください。LangChain コミュニティフォーラム でフィードバックを提供し、ご意見を聞かせてください。
原文を表示
Evaluations are a key technique for improving your application — whether you’re working on a single prompt or a complex agent. As you compare models, update logic, or iterate on your architecture, evaluations are a reliable way to score outputs and understand the impact of your changes.
But, one big challenge we hear consistently from teams is:* "Our evaluation scores don't match what we'd expect a human on our team to say." *This mismatch leads to noisy comparisons, and time wasted chasing false signals.
That’s why we’re introducing Align Evals, a new feature in LangSmith that helps you calibrate your evaluators to better match human preferences. This feature was inspired by Eugene Yan's article on building LLM-as-a-judge evaluators.
This feature is available today for all LangSmith Cloud users and will be released to LangSmith Self-Hosted later this week. View our video walkthrough or read our developer docs to get started.
Creating high quality LLM-as-a-judge evaluators just got easier
Until now, iterating on evaluators has often involved a lot of guesswork. It's hard to spot trends or inconsistencies in evaluator behavior and, after making changes to your evaluator prompt, it can be unclear which data points caused scores to shift or why.
With this new LLM-as-a-Judge Alignment feature, you get:
- A playground-like interface to iterate on your evaluator prompt and see the evaluator’s “alignment score”
- Side-by-side comparison of human-graded data and LLM-generated scores, with sorting to identify “unaligned” cases
- A saved baseline alignment score in order to compare your latest changes to the previous version of your prompt

How it works
Here’s how the alignment flow works:
1. Select evaluation criteria
The first step is identifying the right evaluation criteria. Your eval criteria should include the things your app should do well. For example, if you’re building a chat app, correctness is important —but so is conciseness. A technically accurate answer that takes many paragraphs to get to the point will still frustrate users.
2. Select data for human review
Create a set of representative examples from your app. These should cover both good and bad examples —the goal is to cover the range of outputs that your app would actually generate. For example, if you’re working on adding a new product that your customer support assistant can answer questions about, include both correct responses and incorrect ones.
3. Grade the data with expected scores
For each eval criteria, manually assign a score for each example. These scores become your “golden set” which will serve as a benchmark against which the evaluator’s responses will be judged.
4. Create an evaluator prompt and test it against the human grading
Create an initial prompt for your LLM evaluator and use the the alignment results to iterate. For each version of your prompt, you'll test it against your human-graded examples to see how well your LLM's scores align with yours.
For example, if your LLM consistently over-scores certain responses, try adding clearer negative criteria. Improving your evaluator score is meant to be an iterative process. Learn more about best practices on iterating on your prompt in our docs.
Whats next?
We’re just getting started. This is the first step towards helping you build better evaluators. Looking ahead, you can expect:
- Analytics so you can track how your evaluator’s performance evolves over time.
- Automatic prompt optimization, where we automatically generate prompt variations for you!
Give it a try! Get started by heading to our developer documentation or watch our video tutorial. Let us know what you think by providing feedback in the LangChain Community fourm.
関連記事
Fireworks を活用した 100 倍安価なトレース判定器の構築
LangChain が Fireworks の技術を活用し、従来の 100 分の 1 のコストで動作するトレース判定器を開発したと発表した。
LangSmith を用いたペア評価の実装
LangChain が提供する LangSmith ツールにおいて、モデルの出力を比較するペア評価手法を紹介し、開発者が評価プロセスを効率化する方法を解説している。
LangChain がコーディングエージェントの予測可能性を高める方法
LangChain は、コーディングエージェントがより予測可能な動作を行うための手法を開発・実装した。これにより、開発プロセスにおけるエージェントの挙動制御が可能となった。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み