Introducing Align Evals: Streamlining LLM Application Evaluation｜Align Evals の紹介：LLM アプリケーション評価の効率化 | AIニュース最前線

評価は、単一のプロンプトに取り組んでいる場合でも、複雑なエージェントを構築している場合でも、アプリケーションを改善するための重要な技術です。モデルの比較やロジックの更新、アーキテクチャの反復改良を行う際、評価は出力にスコアを付け、変更がもたらす影響を理解するための信頼できる手段となります。 しかし、私たちがチームから一貫して聞く大きな課題の一つは、「私たちの評価スコアは、チーム内の人間が言うべき内容と一致しない」という点です。この不一致により、ノイズの多い比較が行われ、偽のシグナルを追いかけることで時間が浪費されてしまいます。 そのため、私たちは**Align Evals**を導入しました。これは LangSmith の新機能で、評価者が人間の嗜好によりよく合致するようにキャリブレーション（較正）を支援するものです。この機能は、[LLM-as-a-judge](https://www.langchain.com/resources/llm-as-a-judge) 型の評価器を構築する方法について記された [Eugene Yan の記事](https://eugeneyan.com/writing/aligneval/?ref=blog.langchain.com) にインスパイアされています。 この機能は、今日からすべての LangSmith Cloud ユーザーに対して利用可能となり、今週後半に LangSmith Self-Hosted 版にもリリースされます。まずは [ビデオのウォークスルー](https://www.youtube.com/watch?v=-9o94oj4x0A&ref=blog.langchain.com) をご覧いただくか、[開発者向けドキュメント](https://docs.smith.langchain.com/evaluation/tutorials/aligning_evaluator?ref=blog.langchain.com) をお読みいただき、ご活用ください。 ## LLM-as-a-judge 評価器の作成がより容易に これまで、評価器の反復作業には多くの推測が必要でした。評価器の動作における傾向や不整合を特定するのは難しく、評価器のプロンプトに変更を加えた後でも、どのデータポイントがスコアの推移を引き起こしたのか、あるいはなぜそうなったのかを明確に把握できないことがよくありました。 この新しい LLM-as-a-Judge 整列機能により、以下が可能になります： - 評価器プロンプトの反復作業と、評価器の「整列スコア」の確認ができるプレイグラウンドのようなインターフェース - 人間による採点データと LLM が生成したスコアの並列比較。ソート機能を用いて「未整列」ケースを特定可能 - プロンプトの最新変更点を以前のバージョンと比較するための、保存されたベースラインの整列スコア ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69cbaa8cdddec1fc20580e77_image-11.png) ## 仕組みについて 整列フローの動作は以下の通りです： **1. 評価基準の選択** 最初のステップは、適切な評価基準を特定することです。評価基準には、アプリケーションがうまく行うべき項目を含める必要があります。例えば、チャットアプリを構築している場合、正確性は重要ですが、簡潔性も同様に重要です。要点に到達するために多くの段落を要する技術的に正確な回答であっても、ユーザーをイライラさせることになります。 **2. 人間によるレビュー用のデータ選択** アプリから代表的な例のセットを作成してください。これには良い例と悪い例の両方を含める必要があります。目標は、アプリが実際に生成する可能性のある出力の範囲を網羅することです。例えば、カスタマーサポートアシスタントに回答させる新製品を追加している場合、正しい応答と誤った応答の両方を含めてください。 **3. 期待されるスコアでデータを評価する** 各評価基準について、各例に対して手動でスコアを割り当てます。これらのスコアが「ゴールデンセット」となり、評価者の回答を判断するためのベンチマークとして機能します。 **4. 評価者プロンプトを作成し、人間の評価と比較してテストする** LLM 評価者のための初期プロンプトを作成し、アライメント結果を用いて反復的に改善してください。プロンプトの各バージョンについては、人間が評価した例に対してテストを行い、LLM のスコアがあなたのスコアとどの程度一致するかを確認します。 例えば、LLM が特定の応答を常に過大評価する場合は、より明確なネガティブ基準を追加してみてください。評価者スコアの改善は反復的なプロセスとして行われることを意図しています。プロンプトの改善に関するベストプラクティスについては、[ドキュメント](https://docs.smith.langchain.com/evaluation/tutorials/aligning_evaluator?ref=blog.langchain.com#tips-for-improving-evaluator-alignment)をご覧ください。 ## 次のステップは？ 私たちはまだ始まったばかりです。これは、より優れた評価者を作成するお手伝いをするための最初のステップです。今後、以下が期待されます： - エバリュエーターのパフォーマンスが時間とともにどのように進化するかを追跡できる分析機能。 - 自動プロンプト最適化機能：プロンプトのバリエーションを自動的に生成します！ ぜひお試しください。まずは [開発者ドキュメント](https://docs.langchain.com/langsmith/improve-judge-evaluator-feedback?ref=blog.langchain.com) にアクセスするか、[ビデオチュートリアル](https://youtu.be/-9o94oj4x0A?ref=blog.langchain.com) をご覧ください。[LangChain コミュニティフォーラム](https://forum.langchain.com/t/introducing-align-evals-streamlining-llm-application-evaluation/817?ref=blog.langchain.com) でフィードバックを提供し、ご意見を聞かせてください。

Align Evals の紹介：LLM アプリケーション評価の効率化

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト