#llm evaluation のAIニュース

9件の記事

ファブルとミソス：モデルの福祉について

Zvi は、現在利用できないが数週間で復帰する見込みのある「Fable」と「Mythos」について言及し、Opus 4.7 や 4.8 の事例と同様に、これらのモデルの潜在的価値を理解するには「モデルの福祉」に関する議論が不可欠であると指摘している。

monday Service は LangSmith と連携し、開発初期段階からコードベースで評価を行う戦略を構築した。これにより、AI アプリケーションの品質保証プロセスが強化された。

AWSとパートナーのランチェーンが共同で、非確定的なAIエージェントの動作を検証する手法を公開した。これは本番環境への展開前にエラーを早期に発見し、ワークフロー全体への悪影響を防ぐための評価フレームワークである。

Harvey が法務エージェントベンチマークで最前線モデルを評価した結果、Claude Opus 4.7 が 7.1% の最高スコアを獲得したが、これは法務業務が最先端知能によって完全に代替されるには程遠いことを示している。

LangSmithは、30以上の評価テンプレートと中央ハブを追加し、プロジェクト間で評価器を再利用可能にした。これにより、ユーザーは毎回ゼロから作成することなく、より高品質な評価を迅速に構築・適用できる。

研究者らが、LLMに統合された検索エージェントの評価における課題（高品質なベンチマーク構築の困難さと静的ベンチマークの陳腐化）を指摘し、新たな評価手法の必要性を論じている。

Terminal Bench 2.0でコーディングエージェントがTop30からTop5に向上。ハーネスの変更のみで、自己検証とトレーシングが効果的だった。

多肢選択ベンチマーク、検証器、リーダーボード、LLMジャッジの4つの評価手法を、コード例を交えて解説。

著者は、AI評価においてツール選びに過度に注目するのではなく、プロセス重視であるべきだと指摘。また、ツールの陳腐化が速いため比較は困難とし、自身の経験に基づき推奨ツールを示唆している。