#評価ベンチマーク のAIニュース
2件の記事
リアリティ:最終評価 — Andon Labs のルカス・ペターソンとアクセル・バックランド
Andon Labs のルカス・ペターソン氏とアクセル・バックランド氏が、従来のスコアベースの評価指標では捉えきれない現実世界でのモデル性能を測る新しい評価手法「リアリティ」について議論する。
Latent Space·6月5日·★★★★
CORPGENが実務向けAIエージェントを進化させる
CORPGENは、複数の相互依存タスクを同時管理する「Multi-Horizon Task Environments(MHTEs)」を開発した。現在のAIエージェントは多タスク負荷で完了率が16.7%から8.7%に急低下する課題を解決する取り組み。
Microsoft Research·2月27日·★★★★