#model development のAIニュース
2件の記事
OLMO-EVAL:モデル開発ループのための評価ワークベンチ(7 分読)
TLDR AI は、反復的な大規模言語モデルの開発を支援する新しい評価ワークベンチ「OLMO-EVAL」を発表しました。このツールは既存の OLMES 基準を強化し、ベンチマークの追加やエージェント型・多ターン評価を簡素化します。
TLDR AI·6月15日·★★★★
OLMO-EVAL:モデル開発ループのための評価ワークベンチ
Allen AI(AI2)は、大規模言語モデルの開発プロセスを支援するオープンソースの評価ワークベンチ「OLMO-EVAL」を発表した。これは最終スコアの再現性から日常の開発ループへと拡張されたものであり、開発者が異なるチェックポイント間でベンチマークの追加・実行・分析を容易に行えるように設計されている。
Allen AI (AI2)·6月12日·★★★★