#ai evaluation のAIニュース

4件の記事

Amazon SageMaker AI で MLflow v3.10 がサポートされ、生成 AI 開発が効率化

Amazon は Amazon SageMaker AI の MLflow Apps にバージョン 3.10 を導入し、生成 AI 開発のワークフローを簡素化し、実験追跡機能を強化したと発表した。

AWS Machine Learning Blog·5月6日·★★★★

AI 評価が新たな計算リソースのボトルネックに（19 分読）

AI 評価のコストが急騰し、トレーニングコストに匹敵する計算リソースのボトルネックとなっている。一部の試行では数万ドルを要し、モデルやタスク間でコスト配分に偏りがあるため、標準化ドキュメントやデータ再利用など効率的な手法が必要とされている。

TLDR AI·4月30日·★★★★

frontier AI 能力を測定するオープンワールド評価

研究者らは、主要ベンチマークが飽和した現在、AI が実製品開発や科学実験など現実世界でどのように機能するかを評価する「オープンワールド評価」を導入した。この論文は、その定義と手法について詳述している。

AI Snake Oil·4月17日·★★★★

ServiceNow Researchが「EnterpriseOps-Gym」を公開：現実的な企業環境におけるエージェント型計画評価の高忠実度ベンチマーク

ServiceNow Research、Mila、モントリオール大学は、大規模言語モデルの企業実装課題を解決するため、長期計画や状態変化を評価するベンチマーク「EnterpriseOps-Gym」を開発した。

MarkTechPost·3月18日·★★★★