Building a 100x Cheaper Trace Judge with Fireworks｜Fireworks を活用した 100 倍安価なトレース判定器の構築 | AIニュース最前線

エージェントは現在、世界のデータの過半数を生成し、私たちが今日利用している多くのアプリケーションの動力源となっています。より多くの中核システムにエージェントが導入されるにつれ、[トレース](https://docs.langchain.com/langsmith/observability-concepts#traces)は、実際のユーザーとのやり取りにおけるエージェントシステムの振る舞いを理解するための最も豊富なデータソースの一つとして、ますます重要性を増していきます。 **研究課題:** **コスト効果の高い方法で**、**最先端の性能を維持しながら**、すべてのトレースから重要なシグナルをどのように抽出できるか？ この問いに答えるため、私たちは [Fireworks](https://app.fireworks.ai/account/home) と提携し、ユーザーとのインタラクションから「知覚されたエラー」を検出するために Qwen 評価モデルをファインチューニングしました。 **知覚されたエラーとは:** **知覚されたエラーとは、ユーザーがアシスタントにミスがあったと感じたり、修正が必要なものが生成されたと感じたりする状態です。これは客観的な正しさやユーザーの満足度を判断するものではありません。例えば、エージェントが正しい回答を提供したとしても、その情報自体によってユーザーがイライラしている場合（エージェント自体の問題ではない）も含まれます。 通常、私たちはチームに対してアプリケーション固有の評価器を構築するよう推奨しています。なぜなら、トレースを評価するためのロジックには、そのアプリケーションの文脈が必要となるケースが多いためです。しかしながら、「知覚されたエラー」は汎用的に使用可能な評価器の例であると私たちは考えています。この評価器が検出しようとするシグナルは、あらゆるアプリケーションにおいて普遍的なものだと信じています。 「知覚されたエラー」の一般性とは重要な問いです。後ほど行ういくつかの実験は、この指標の一般性をテストすることを特に目的としています。 ユーザーによる修正、エージェント行動の拒否、繰り返しのリクエスト、アシスタントのエラーへの言及といったトレース信号から、知覚されたエラーを推論します。その後、知覚されたエラー評価器が、以下に示す形式の情報でトレースを拡張します: {"perceived_error": true, "reason": "ユーザーはアシスタントが使用した会議日付を修正しました。"} ## データセットの作成方法 タスクに適用されるエージェントの性能は、それらを訓練するために使用されたデータと同じ程度しかありません。私たちは、本番環境で使用している 2 つの内部トレースデータセットからデータを収集しました: [chat-langchain](https://github.com/langchain-ai/chat-langchain) *LangChain のライブラリや製品に関する質問に答えるドキュメント Q&A エージェントです。ユーザーは概念的な質問、デバッグに関する質問、あるいはものづくりの支援を求めたりします。これらのやり取りは技術的な内容が多く、多くの詳細を含みます* [Fleet](https://www.langchain.com/langsmith/fleet) *文書作成や調査など実際の作業を行うエージェントを作成するためのノーコードツールです。ユーザーは Fleet を多様なタスクに使用できます。さまざまなツールやスキルを呼び出すこともあります* 各トレーシングデータセットから、トレーニングセットとホールドアウトセットとして使用するトレースの一部を選択しました。トレースのプールからフィルタリングする際、「知覚されたエラー」を判断するには AI の結果に対する人間の応答（例えば、アシスタントの修正やリクエストの繰り返しなど）が必要であるため、マルチターン形式のトレースを選択しました。 複数のデータセットを使用した動機の一部は、「知覚されたエラー」の一般性をテストするためでした。あるデータセットで知覚されたエラーを検出するように訓練されたモデルが、別のデータセットにも転移するでしょうか？ Dataset Total Examples Train rows Holdout rows chat-langchain 885 707 178 Fleet 911 727 184 ## データ準備 トレーニングと予測用のデータを準備する際、人間と AI のメッセージのみを含め、すべてのツール呼び出しは無視するという選択を行いました。これは、私たちが探していたシグナルにとって、人間のメッセージと AI のメッセージが主要な情報源であると仮定したためです。これは将来実験を行う予定のレバーの一つです。 また、長いコンテンツを切り詰めることなく、すべてのメッセージをそのまま含めました。これも将来実験を行う予定のもう一つのレバーです。 ## ラベル付け ラベルを生成するため、モデル支援によるラベル付けと人間のレビューを組み合わせて、各トレースに対して短い JSON ラベルと根拠（rationale）を作成しました。具体的にはまず、モデルのパネルにトレースの判定を依頼します。すべてのモデルが一致した場合、それを正解ラベル（ground truth label）として採用します。意見が分かれた場合は、それらのラベルと根拠をすべて収集し、別のモデルのパネルに「どちらが正しいか」を判断させるよう依頼します。そのパネルで合意が得られれば、それを正解ラベルとみなします。それでも意見が割れる場合のみ、人間が手動で注釈（アノテーション）を追加しました。データセット全体では、chat-langchain と Fleet はそれぞれ 24% と 18% のトレースに「誤りあり」というラベルが付与されていました。 ## ファインチューニングの設定 トレーニングには、他のモデルを小規模でテストした結果に基づき、Qwen-3.5-35B をベースモデルとして選択しました。より小さなモデルはエラー率が高く、マルチターン（多段階）のトレースに対する推論能力が不足していました。一方、Qwen-3.5-35B は強力かつ低コストなオープンモデルであり、ファインチューニングを通じて最先端のパフォーマンスを達成する余地がありました。 トレーニングには chat-langchain データセットからのデータのみを使用しました。単一のデータセットからのデータのみでトレーニングを行った理由は、それが全く異なるドメインへも転移（transfer）可能かどうかを検証するためです。 また、ベースモデルの小規模実験で観察された一般的な失敗パターンを踏まえ、入力プロンプトを軽微に最適化しました。トレーニングには [Fireworks 上の管理型 SFT（Supervised Fine-Tuning）トレーニングを LoRA と併用](https://docs.fireworks.ai/fine-tuning/supervised-fine-tuning) を使用しました。 ## Experiments & results We organized experiments around three questions: - Does fine-tuning improve baseline judge quality up to frontier model performance? - Does a learned judge transfer across datasets? - Is serving a fine-tuned model cost-effective? Fine-tuning open models can exceed or match frontier models** ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a302f471ecb5b6b83808987_finetuning-lift-chart_dark%202.png) Model chat-langchain accuracy Fleet accuracy Base Qwen 90.5% 83.2% Chat-langchain SFT 96.1% 90.8% Fleet SFT 92.7% 91.3% Claude Opus 91.6% 90.2% GPT-5.5 98.9% 89.1% We found that base Qwen with good prompting was a strong out of the box model for perceived error classification, but trailed frontier model classification accuracy. On both datasets, running a LoRA SFT job lifted the base model to be close to or above frontier performance. In addition to benchmarking against frontier models, we also compared to smaller, cheaper models. A common strategy for running high-volume, low cost inference workloads is using the smallest closed frontier model such as Haiku. But we consistently found that strong open models outperformed Haiku out of the box, while being much cheaper to run. ## 微調整済み判別モデルは未見データにもよく転移する ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a3036a1d7442921304a131f_A%20chat-langchain%20judge%20transfers%20to%20Fleet%20(1).png) 初期の結果では、Fleet データセットがすべてのモデルにとってより困難なデータセットであることが示されました。chat-langchain での微調整後、このモデルが Fleet データに対して Fleet 固有のトレーニングを一切行わずにどの程度転移するかをテストしました。chat-langchain データで訓練されたモデルは、Fleet データにおいてすべての最先端モデルを上回る性能を発揮しました。 その後、Fleet データに特化してモデルを訓練する実験を行いました。その結果、chat-langchain で SFT（Supervised Fine-Tuning：教師あり微調整）を行ったモデルと比較してわずかな改善が見られました。 これは重要な結果です。なぜなら: - 私たちの知覚される誤りのモデルが他のドメインへも転移可能であり、最先端レベルの性能を維持できること（この場合はやや上回るレベル）を示しているからです。 - 自身のデータセット上で知覚される誤り（または他の微調整済み判別モデル）の性能をさらに引き上げたいビルダーにとって、さらなる性能向上のためにアプリケーション固有のトレースで微調整を行う選択肢が得られることを示しています。 ## 微調整済みモデルは実行コストが大幅に低い ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a302f7a797316bb69213ed3_cost-quality-frontier_dark%201.png) ファインチューニングされたモデルは最前線の精度に匹敵し、スケールでの実行コストも大幅に低く、トレース量やモデル選択に応じて 10〜100 倍の差があります。トレース量が拡大するにつれ、ファインチューニングモデルによるコスト削減効果もさらに大きくなります。また性能面では、ファインチューニングされた Qwen モデルは、Haiku、Sonnet、Opus（および gpt-5.5）を含むすべてのモデルサイズを上回ります。 トレース理解に関する今後の研究 継続学習（Continual Learning）を解決するには、トレース理解に関連する大規模なデータマイニング問題に取り組む必要があります。一般的に、トレースをよりよく理解するために、専門的でコスト効果の高いモデルを構築するためのレシピを推進することに興奮しています。 [オープンモデルは知性の閾値を超えた](https://www.langchain.com/blog/open-models-have-crossed-a-threshold) ことで、多くのタスクにおいてすぐに使える高性能でコスト効果の高い分類器となっています。Fireworks の使いやすいトレーニングおよび推論インフラストラクチャを活用することで、オープンモデルを最前線の性能に近づけつつ、実行コストを桁違いに抑えることが可能になりました。 今後の研究の方向性としては、チームが自社のエージェントトレース用の評価者モデル（evaluator models）を構築できるよう、適切なトレーニング目標や評価基準（rubrics）の設計を支援することが挙げられます。エージェントトレースを理解するほど、エージェントを改善するための変更を行う際により情報に基づいた判断が可能になります。 ## 知覚誤差モデルを試す 私たちは、今後数週間にわたり、微調整済みの知覚誤差モデルを限定された顧客向けに展開し、1〜2 ヶ月後に広範な展開を行う予定です。この知覚誤差判定器のテストにご興味があり、フィードバックを提供されたい場合は、[こちら](https://airtable.com/appWdRBlSecNOgErA/pagAEfUlHu4F35opm/form)からご登録ください。

Fireworks を活用した 100 倍安価なトレース判定器の構築

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト