#llm-as-a-judge のAIニュース

5件の記事

LLM評価パネルにおける相関誤差が信頼性を損なう:9人の判事、実効投票は2票のみ

Apple Machine Learningチームは、複数の大規模言語モデル(LLM)で構成される評価パネルの信頼性について調査した。その結果、9つの最先端モデルからなるパネルでも、相関する誤差により実質的な有効投票数は約2票に過ぎないことが判明した。

Apple Machine Learning·6月23日·★★★★

LangGraph と LangSmith を活用した Lyft のセルフサービス AI エージェントプラットフォーム構築事例

ライドシェア企業の Lyft が、LangChain の LangGraph と LangSmith を利用し、開発者が独自に AI エージェントを構築・管理できるセルフサービスプラットフォームを構築した手法について紹介している。

LangChain Blog·5月28日·★★★★

OpenEvals × Langfuseで始めるAIエージェントのマルチターン評価

AIエージェントの構築において、OpenEvalsとLangfuseを活用したマルチターン(複数回の対話)評価の重要性と始め方を紹介しています。

AI Shift Tech Blog·1月26日

自然言語だけでワークフローが完成する時代:ワークフローDevOpsへの変革

Difyやn8nなどのノーコードツールは非エンジニアでも利用可能だが、実務ではGUI操作の習得や手動テスト、エラー特定に課題がある。AIアプリケーションのワークフロー自動生成により、これらの課題解決を目指す取り組みを紹介。

Algomatic Tech Blog·12月27日·★★★★

LLM-as-a-Judgeを用いた評価:完全ガイド

著者は30社以上の支援経験から、LLMを審査官としてAI出力を評価する手法の確立方法を解説する。多くのチームが指標過多などの失敗を繰り返す現状に対し、効果的な評価システムの構築手順を示している。

Hamel Husain·10月29日·★★★★