#model development のAIニュース

2件の記事

OLMO-EVAL：モデル開発ループのための評価ワークベンチ（7 分読）

TLDR AI は、反復的な大規模言語モデルの開発を支援する新しい評価ワークベンチ「OLMO-EVAL」を発表しました。このツールは既存の OLMES 基準を強化し、ベンチマークの追加やエージェント型・多ターン評価を簡素化します。

OLMO-EVAL：モデル開発ループのための評価ワークベンチ

Allen AI（AI2）は、大規模言語モデルの開発プロセスを支援するオープンソースの評価ワークベンチ「OLMO-EVAL」を発表した。これは最終スコアの再現性から日常の開発ループへと拡張されたものであり、開発者が異なるチェックポイント間でベンチマークの追加・実行・分析を容易に行えるように設計されている。

Allen AI (AI2)·6月12日·★★★★