AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Hamel Husain·2025年10月1日 16:00·約10分

適切なAI評価ツールの選択

#LLM Evaluation#LangSmith#Braintrust#Arize Phoenix#Human-in-the-Loop
TL;DR

Hamel Husain は、AI 評価ツールの選定において機能比較よりもワークフローや人間との協働を重視すべきだと指摘し、主要ベンダーによる実演レビューの重要性を説いている。

AI深層分析2026年5月2日 23:18
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

ツール選定の核心はプロセスとチーム適性

単一の「最強」ツールは存在せず、ツールの選択はチームのスキルセット、技術スタック、成熟度に依存する。ツール自体よりも評価のプロセス構築に注力すべきである。

2

主要ベンダーによる実演比較の実践的価値

LangSmith、Braintrust、Arize Phoenix の 3 つの主要ツールが同じ課題に取り組む様子を記録・分析することで、機能表では見えない実際のワークフローの違いを浮き彫りにした。

3

開発者体験とノートブック中心のワークフロー

失敗から解決策への反復時間を短縮する「摩擦の少ない」環境が重要であり、データサイエンティストには透明性と制御権を提供するノートブック中心のアプローチが推奨される。

4

人間による検証(Human-in-the-Loop)の優先

完全な自動化を謳う機能への懐疑性を保ちつつ、エラー分析や手動注釈を第一級にサポートするツールが最も ROI が高いと結論付けられている。

5

自動化への懐疑的な姿勢と人間の検証の重要性

AI が評価基準を作成し即座に採点する機能には注意が必要であり、完全な自動化は誤った自信を生む危険性があるため、人間による検証とコントロールを重視すべきです。

6

エコシステム統合とデータのエクスポート

評価ツールは既存の技術スタックに適合するものであり、独自言語(DSL)への依存やデータの汎用フォーマットでのエクスポート機能が不可欠です。

7

構造化された評価プロセスと人間中心のワークフロー

専門家の関与による初期データセット作成から、失敗モードの分析を可能にする「Money Table」までの体系的なアプローチが強調されました。

影響分析・編集コメントを表示

影響分析

この記事は、AI エンジニアリングの現場において、ツール選定が単なる機能比較で終わらず、組織の成熟度や人的リソースにどう適合するかが決定的な要因であることを示唆しています。特に「人間による検証」の重要性を再認識させることで、過度な自動化への依存を防ぎ、実用的かつ堅牢な評価プロセスの構築を促す重要な指針となります。

編集コメント

ツール選定の迷いを解消する際、機能比較表よりも「実際のワークフローでの挙動」や「チームの文脈」を重視すべきだという示唆は非常に貴重です。特に完全自動化への懐疑視は、現在の AI エンジニアリングにおける重要な教訓と言えます。

過去1年間、私はコンサルティング業務と講義の両方でAI評価(AI Evals)に重点を置いてきました。私が常に受ける質問は、「評価に最適なツールは何ですか?」というものです。私はこれまで直接答えることを避けてきましたが、その理由はいくつかあります。第一に、人々はプロセスよりもツールに焦点を当てすぎており、ツールがすぐに使えるソリューションになると考えている傾向がありますが、実際にはそうなることはほとんどありません。第二に、ツールの進化があまりにも速いため、比較情報はすぐに陳腐化してしまいます。

多くの人気のある評価ツールを使用してきた経験から、私は正直に言えます。どのツールもすべての次元で他よりも優れているわけではありません。「最良」のツールは、チームのスキルセット、技術スタック、成熟度によって異なります。

機能ごとの比較を行うよりも、評価に精通したデータサイエンティストのパネルがこれらのツールをどのように評価するかを示す方が、より価値があると考えます。私のAI評価コースの一環として、主要なベンダー3社であるLangsmith、Braintrust、Arize Phoenixに同じ宿題課題を完了してもらいました。これにより、彼らが全く同じ課題にどのように取り組むかを目撃するユニークな機会を得ることができました。

私たちはプロセス全体とライブ解説を録画しており、それは以下で視聴可能です。チーム向けのツールを選択する際に考慮すべき事項について学ぶ上で、これが役立つと考えます。

パネリストとして参加してくれたShreya Shankar氏とBryan Bischof氏に感謝いたします(私自身も含まれます)。

Langsmith

LangChainのCEOであるHarrison Chase氏との対談。

Braintrust

Braintrust元開発者関係担当のWayde Gilliam氏との対談。

Arize Phoenix

Arize の技術 AI プロダクトリーダーであるサリーアン・デルーシア氏と共に。

AI 評価ツールの選定基準

レビューを通じて一貫して浮上したテーマを以下に示します。

  1. ワークフローと開発者体験

摩擦を減らすことが、単一の機能よりも重要です。具体的には、失敗を観察してから解決策の反復を行うまでの時間を意識する必要があります。例えば、単一のトレース(trace)を表示することから、その同じトレースをプレイグラウンドで実験することに移行できる機能を高く評価しました。データサイエンスの背景を持つチームにとっては、ノートブック中心のワークフローが理想的です。これは透明性と制御性を提供するためです。実はこれが私の好みのワークフローでもあります。

ノートブック中心のワークフローを検討する際は、SDK の人間工学(ergonomics)に注意を払うことが重要です。これは往々にして、ドキュメントの質や既存のデータツールとの統合の良さに帰着します。

  1. 人間の関与(Human-in-the-Loop)のサポート

優れたツールは人間を自動化しようとするのではなく、人間を支援するものです。エラー分析が AI エンジニアリングにおいて最も ROI(投資対効果)の高い活動であるため、効率的な人的レビューをサポートするツールの能力が何よりも重要です。手動注釈付けやエラー分析に対して第一級のサポートを提供するツールを優先してください。本稿執筆時点では、多くのツールに欠けているものの一つとして、軸コーディング(axial coding)があります。

  1. 透明性と制御性 vs. 「魔法」

人間による検証なしに完全自動化を約束する機能には深く懐疑的であってください。そのような機能は、強力かつ危険な自信の錯覚を生み出す可能性があります。例えば、AI エージェントが評価基準を作成し、直ちに出力に対して採点を行うような機能には警戒してください。この「抽象化の積み重ね」は、高いスコアによって欠陥を隠してしまうことがよくあります。制御と可視性を提供してくれるツールを選ぶべきです。

  1. エコシステム統合 vs 囲い込み(ウォールドガーデン)

評価ツールは、あなたがツールのスタックに合わせるのではなく、あなたの既存の技術スタックに適合するものであるべきです。そのツールが既存の技術とどの程度よく統合されるかを評価してください。また、独自 DSL(ドメイン固有言語)には注意が必要です。これらは摩擦を生む可能性があります。最後に、さまざまな環境で分析するためにデータを一般的な形式へエクスポートできる能力は必須要件です。

結論

適切なツールの選択は、チームのワークフロー、スキルセット、および特定のニーズに依存します。パネルがどのようにこの評価に取り組んだかを見ていただくことで、ご自身の判断を下すためのより良い枠組みが得られることを願っています。

私個人としては、これらのツールをバックエンドのデータストアとして使用し、私の多くのニーズに対しては Jupyter ノートブックや私が独自に構築した注釈付けインターフェースを使用する傾向があります。

付録:ベンダーのスナップショット(2025 年半ば時点)

これらのメモは鵜呑みにせず、批判的に受け止めてください。上記のビデオをご覧いただき、私たちがどのようにこれらの基準を適用し、あなたのニーズに応じてどこで異なるアプローチをとる可能性があるのかを理解することをお勧めします。

Langsmith 評価ノート

全体的な評価

全体的なワークフローは直感的であり、特にフォーマルな評価プロセスに初めて取り組む人にとって分かりやすいです。UI は、データセットの作成、実験の実行、結果のアノテーションという一連の手順を案内してくれます。

肯定的なフィードバック / 良かった点

トレースからプレイグラウンドへのシームレスなワークフロー:トレースの検査からプレイグラウンド内での実験へ移行するプロセスが非常にスムーズです。

AI 支援によるプロンプト改善:「Prompt Canvas」機能は、プロンプトエンジニアリングのための強力なツールです。

データセットの作成と管理:ファイルのアップロードによって容易にデータセットを作成でき、スキーマ検出機能がデータの適切な構造化を支援します。

実験と評価:「Annotation Queue(アノテーションキュー)」は、トレースに対する人間のレビューやラベリング専用のインターフェースであり、スプレッドシートを使用するよりも効率的です。

批判と改善の余地

限定的な並列比較機能:UI では、異なるプロンプトバージョンとその出力を並べて比較することが容易ではありません。

UI/UX に関する懸念点:UI は少しごちゃごちゃした印象を与え、一度に多くのオプションや情報が提示されるため、整理が難しい場合があります。

過度な自動化のリスク:AI 生成による例示機能は便利ですが、データが画一的になる可能性があります。

Braintrust の評価ノート

全体的な評価

パネルは Braintrust に対して全般的に肯定的な見解を示し、そのクリーンな UI と構造化された評価アプローチを高く評価しました。ツールにおける「人間-in-the-loop(ヒューマン・イン・ザ・ループ)」ワークフローへの重点的な取り組みが、大きな強みとして際立っていました。

肯定的なフィードバック / 良かった点

構造化された評価プロセスに焦点を当てる:デモンストレーションでは、主題の専門家を巻き込んで初期データセットを作成することから始まる、堅牢で体系的なアプローチが強調されました。

清潔で直感的なユーザーインターフェース(UI):パネルは、この UI が他のツールよりも清潔でナビゲーションが容易であり、特にトレース表示画面が見やすいと評価しました。

人間をループに組み込んだワークフローへの強力なサポート:本プラットフォームには、人間のレビューや注釈付けのために設計された専用 UI があり、高品質なデータセットの作成やエラー分析を行う上でこれは極めて重要です。

「マネーテーブル」:失敗モードでトレースに注釈をつけた後、最終的なデータセットビューは、チームが最も一般的な失敗モードをすばやくソート、フィルタリング、定量化できる実行可能な出力となります。

批判と改善すべき点

「Loop」AI スコアラー:最も重大な懸念点は、「Loop」という機能でした。これは評価ルブリックを作成し、すぐに出力にスコア付けを行う AI エージェントですが、これが誤った安心感をもたらす可能性があります。

独自クエリ言語(BTQL)への依存:パネルは「BTQL」の使用に対してやや懐疑的な見解を示し、データを Jupyter ノートブックへエクスポートする方を好むと述べていました。

ぎこちないデータワークフロー:合成データの生成および精緻化のプロセスが非効率的に思われ、ステップ間でデータのダウンロードと再アップロードが必要でした。

Arize Phoenix 評価ノート

全体的な評価

パネルは Phoenix に対して全般的に肯定的な見解を持っており、あるパネリストはこれを「お気に入りのオープンソース評価ツールの一つ」と呼びました。このツールは、開発者ファーストでノートブック中心のプラットフォームとして位置づけられています。

肯定的なフィードバック / 私たちが気に入った点

ノートブック中心のワークフロー:評価プロセス全体が Jupyter ノートブックから駆動されており、開発者に透明性とコントロールを提供しています。注釈付きデータを Pandas DataFrame へエクスポートできる機能は非常に強力でした。

UI と開発者体験:プロンプト管理 UI は明確で理解しやすいと高く評価されました。トレースと「Playground」間の緊密な統合も、スムーズなワークフローとして指摘されました。

オープンソースかつローカルファーストのアプローチ:Phoenix は完全にローカル環境で実行可能であり、コントロール感と透明性を提供します。オープンソースツールであるため、「ハック可能(改造可能)」である点も注目されました。

批判と改善の余地

UI の可読性:デモ中の出力パネル内のテキストが読みづらく、モデル出力に対するマークダウンレンダリングが不足している可能性があります。

指標と可視化:ツールは各ランごとのポイント統計を表示しますが、パネルはこの有用性が限定的であると見なし、外れ値を特定するためのヒストグラムなどの集計可視化を求める声がありました。

プロンプト管理とテスト:プロンプトエディタはシステムプロンプトを1 つの巨大なモノリスブロックとして扱います。個々の指示をオンオフ切り替え可能(「アブレーション」)にするよりコンポーネントベースのアプローチの方が、体系的なテストには好ましいでしょう。

⟦CODE_0⟧

原文を表示

Over the past year, I’ve focused heavily on AI Evals, both in my consulting work and teaching. A question I get constantly is, “What’s the best tool for evals?”. I’ve always resisted answering directly for two reasons. First, people focus too much on tools instead of the process, thinking the tool will be an off-the-shelf solution when it rarely is. Second, the tools change so quickly that comparisons become outdated immediately.

Having used many of the popular eval tools, I can genuinely say that no single one is superior in every dimension. The “best” tool depends on your team’s skillset, technical stack, and maturity.

Instead of a feature-by-feature comparison, I think it’s more valuable to show you how a panel of data scientists skilled in evals assesses these tools. As part of my AI Evals course, we had three of the most dominant vendors—Langsmith, Braintrust, and Arize Phoenix complete the same homework assignment. This gave us a unique opportunity to see how they tackle the exact same challenge.

We recorded the entire process and live commentary, which is available below. We think this might be helpful in learning about the kinds of things you should consider when selecting a tool for your team.

Thanks to Shreya Shankar and Bryan Bischof for serving as the panelists (alongside me).

Langsmith

With Harrison Chase, CEO of LangChain.

Braintrust

With Wayde Gilliam, former developer relations at Braintrust.

Arize Phoenix

With SallyAnn DeLucia, Technical AI Product Leader at Arize.

Criteria for Assessing AI Evals Tools

Here are themes that consistently surfaced during our review.

  1. Workflow and Developer Experience

Reducing friction is more important than any single feature. Concretely, you should be mindful of the time it takes to go from observing a failure to iterating on a solution. For example, we appreciated the ability to go from viewing a single trace to experimenting with that same trace in a playground. For some teams with data-science backgrounds, a notebook-centric workflow is ideal as it provides transparency and control. This happens to be my preferred workflow as well.

When considering a notebook-centric workflow, its important to pay attention to the ergonmics of the sdk. This often boils down to the quality of the documentation and integration with existing data tools.

  1. Human-in-the-Loop Support

The best tools don’t try to automate away the human; they empower them. Since error analysis is the highest ROI activity in AI engineering, a tool’s ability to support efficient human review is paramount. Prioritize tools with first-class support for manual annotation and error analysis. As of this writing, one thing that is missing from many tools is axial coding.

  1. Transparency and Control vs. “Magic”

Be deeply skeptical of features that promise full automation without human validation, as these can create a powerful and dangerous illusion of confidence. For example, be wary of features where an AI agent both creates an evaluation rubric and then immediately scores the outputs. This “stacking of abstractions” often hides flaws behind a high score. Favor tools that give you control and visibility.

  1. Ecosystem Integration vs. Walled Gardens

An eval tool should fit your stack, not force you to fit its stack. Assess how well a tool integrates with your existing technologies. Also, beware of proprietary DSLs as they can add friction. Finally, the ability to export data into common formats for analysis in a variety of environments is a must-have.

Conclusion

The right choice of tool depends on your team’s workflow, skillset, and specific needs. I hope seeing how our panel approached this evaluation provides a better framework for making your own decision.

As for me personally, I tend to use these tools as a backend data store and use Jupyter notebooks as well as my own custom built annotation interfaces for most of my needs.

Appendix: Vendor Snapshots (As of Mid-2025)

You should take these notes with a grain of salt. I recommend watch the videos above to get a sense of how we applied these criteria and where you might differ according to your neeeds.

Langsmith Evaluation Notes

Overall Sentiment The overall workflow is intuitive, especially for those new to formal evaluation processes. The UI guides you through creating datasets, running experiments, and annotating results.

Positive Feedback / What We Liked

Seamless Workflow from Trace to Playground: The transition from inspecting a trace to experimenting with it in the playground is very smooth.

AI-Assisted Prompt Improvement: The “Prompt Canvas” feature is a powerful tool for prompt engineering.

Dataset Creation and Management: You can easily create datasets by uploading files, and the schema detection helps structure the data correctly.

Experimentation and Evaluation: The “Annotation Queue” is a dedicated interface for human review and labeling of traces, which is more efficient than using spreadsheets.

Critiques and Areas for Improvement

Limited Side-by-Side Comparison: The UI doesn’t make it easy to see side-by-side comparisons of different prompt versions and their outputs.

UI/UX Concerns: The UI can feel a bit cluttered, with a lot of options and information presented at once.

Potential for Over-Automation: Features like AI-generated examples, while convenient, can lead to homogenous data.

Braintrust Evaluation Notes

Overall Sentiment The panel had a generally positive view of Braintrust, highlighting its clean UI and structured approach to evaluations. The tool’s emphasis on human-in-the-loop workflows was a significant strength.

Positive Feedback / What We Liked

Focus on a Structured Evals Process: The demonstration emphasized a solid, methodical approach, starting by involving subject-matter experts to create an initial dataset.

Clean and Intuitive User Interface (UI): The panel found the UI to be clean and easier to navigate than other tools, with a particularly readable trace viewing screen.

Strong Support for Human-in-the-Loop Workflows: The platform has dedicated UIs designed for human review and annotation, which is critical for creating high-quality datasets and performing error analysis.

The “Money Table”: After annotating traces with failure modes, the final dataset view is an actionable output that allows teams to quickly sort, filter, and quantify the most common failure modes.

Critiques and Areas for Improvement

The “Loop” AI Scorer: The most significant concern was the “Loop” feature, an AI agent that creates an evaluation rubric and then immediately scores the outputs, which could lead to a false sense of security.

Reliance on a Proprietary Query Language (BTQL): The panel viewed the use of “BTQL” with mild skepticism, stating a preference for exporting data to a Jupyter notebook.

Clunky Data Workflows: The process for generating and refining synthetic data seemed inefficient, requiring downloading and re-uploading data between steps.

Arize Phoenix Evaluation Notes

Overall Sentiment The panel had a generally positive view of Phoenix, with one panelist calling it one of his “favorite open source eval tools.” The tool is positioned as a developer-first, notebook-centric platform.

Positive Feedback / What We Liked

Notebook-Centric Workflow: The entire evaluation process was driven from a Jupyter notebook, giving the developer transparency and control. The ability to export annotated data back into a Pandas DataFrame was a powerful feature.

UI & Developer Experience: The prompt management UI was praised for being clear and easy to understand. The tight integration between traces and the “Playground” was also noted as a smooth workflow.

Open Source & Local-First Approach: Phoenix can be run entirely locally, providing a sense of control and transparency. As an open-source tool, it was noted for being “hackable.”

Critiques and Areas for Improvement

UI Readability: The text in the output panes was difficult to read during the demonstration, with a possible lack of markdown rendering for model outputs.

Metrics and Visualization: The tool displays point statistics for each run, but the panel found this of limited use and expressed a desire for aggregate visualizations like histograms to identify outliers.

Prompt Management and Testing: The prompt editor treats the system prompt as one large, monolithic block of text. A more component-based approach where individual instructions could be toggled on and off (“ablated”) would be preferable for systematic testing.

この記事をシェア

関連記事

AWS Machine Learning Blog重要度42026年6月26日 23:38

Stripe の金融コンプライアンス向け本番級 AI エージェント:AWS ベッドロックでの構築教訓

Hamel Husain重要度42026年4月18日 23:24

[お知らせ] 本フィードの運用を終了しました

Hamel Husain重要度42026年3月26日 16:00

データサイエンティストの逆襲

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む