#llm評価のAIニュース

15件の記事

MIT研究者らがオリンピックレベルの数学問題の世界最大コレクションを構築し、一般公開した

MIT研究者らは国際数学オリンピック（IMO）の過去問題集を体系的に収集・整理し、AI研究者や学生向けに一般公開した。

MIT ML News·4月25日·★★★★

コーディングエージェントにOWASP ASVSレベルを伝えると、生成コードのセキュリティは変わるのか

的場氏は、コーディングエージェントにOWASP ASVSのレベルを指示する実験を実施し、生成コードのセキュリティが向上する可能性を確認した。

Generative Agents·4月21日

ADeLe: AIのタスク横断的性能予測と説明

マイクロソフトの研究チームが、AIモデルの18の核心能力を評価し、タスク要求とモデル能力を直接比較できるADeLeを開発した。この手法は新規タスクでの性能を約8%の誤差で予測できる。

Microsoft Research·4月2日·★★★★

Amazon Bedrock AgentCore Evaluationsで信頼性の高いAIエージェントを構築

Amazonは、AIエージェントの開発者がテスト環境と本番環境の動作差を評価・改善できる「Bedrock AgentCore Evaluations」を発表した。従来のソフトウェアテストでは対応が困難なAIエージェント特有の評価課題を解決することを目的としている。

AWS Machine Learning Blog·4月1日·★★★★

AIエージェントを本番環境で評価する：Strands Evals実践ガイド

Strands Evalsは、従来のテストでは対応できないAIエージェントの本番環境導入時の課題を解決する実践的評価ガイドを提供する。AIエージェントは柔軟性と文脈認識能力が高い反面、体系的評価が困難な特性を持つため、確定的出力を前提とする従来テスト手法では不十分であることを指摘している。

AWS Machine Learning Blog·3月19日

DoorDash、大規模LLM会話シミュレーターを構築しカスタマーサポートチャットボットをテスト

DoorDashのエンジニアが、大規模言語モデル（LLM）を活用したカスタマーサポートチャットボットの大規模テスト向けに、会話シミュレーションと評価システムを構築した。本システムは、履歴データとバックエンドモックを用いて多段階の合成会話を生成し、LLMを評価者とする枠組みで結果を評価することで、本番導入前に迅速な反復改善を可能にする。

InfoQ·3月13日·★★★★