#llm evaluation のAIニュース
9件の記事
ファブルとミソス:モデルの福祉について
Zvi は、現在利用できないが数週間で復帰する見込みのある「Fable」と「Mythos」について言及し、Opus 4.7 や 4.8 の事例と同様に、これらのモデルの潜在的価値を理解するには「モデルの福祉」に関する議論が不可欠であると指摘している。
monday Service と LangSmith を組み合わせた、初日からコードファーストの評価戦略の構築
monday Service は LangSmith と連携し、開発初期段階からコードベースで評価を行う戦略を構築した。これにより、AI アプリケーションの品質保証プロセスが強化された。
AWS上のLangSmithを用いたディープエージェントの評価方法
AWSとパートナーのランチェーンが共同で、非確定的なAIエージェントの動作を検証する手法を公開した。これは本番環境への展開前にエラーを早期に発見し、ワークフロー全体への悪影響を防ぐための評価フレームワークである。
法務エージェントベンチマークの初期結果(8 分読)
Harvey が法務エージェントベンチマークで最前線モデルを評価した結果、Claude Opus 4.7 が 7.1% の最高スコアを獲得したが、これは法務業務が最先端知能によって完全に代替されるには程遠いことを示している。
LangSmithにおける再利用可能な評価器とテンプレート
LangSmithは、30以上の評価テンプレートと中央ハブを追加し、プロジェクト間で評価器を再利用可能にした。これにより、ユーザーは毎回ゼロから作成することなく、より高品質な評価を迅速に構築・適用できる。
並行世界における検索エージェントの評価
研究者らが、LLMに統合された検索エージェントの評価における課題(高品質なベンチマーク構築の困難さと静的ベンチマークの陳腐化)を指摘し、新たな評価手法の必要性を論じている。
ハーネスエンジニアリングによる深層エージェントの改善
Terminal Bench 2.0でコーディングエージェントがTop30からTop5に向上。ハーネスの変更のみで、自己検証とトレーシングが効果的だった。
LLM評価の4つの主要アプローチを理解する(基礎から)
多肢選択ベンチマーク、検証器、リーダーボード、LLMジャッジの4つの評価手法を、コード例を交えて解説。
適切なAI評価ツールの選択
著者は、AI評価においてツール選びに過度に注目するのではなく、プロセス重視であるべきだと指摘。また、ツールの陳腐化が速いため比較は困難とし、自身の経験に基づき推奨ツールを示唆している。