メインコンテンツへスキップ

#llm評価 のAIニュース

15件の記事

MIT研究者らがオリンピックレベルの数学問題の世界最大コレクションを構築し、一般公開した

MIT研究者らは国際数学オリンピック(IMO)の過去問題集を体系的に収集・整理し、AI研究者や学生向けに一般公開した。

MIT ML News·4月25日·★★★★

コーディングエージェントにOWASP ASVSレベルを伝えると、生成コードのセキュリティは変わるのか

的場氏は、コーディングエージェントにOWASP ASVSのレベルを指示する実験を実施し、生成コードのセキュリティが向上する可能性を確認した。

Generative Agents·4月21日

ADeLe: AIのタスク横断的性能予測と説明

マイクロソフトの研究チームが、AIモデルの18の核心能力を評価し、タスク要求とモデル能力を直接比較できるADeLeを開発した。この手法は新規タスクでの性能を約8%の誤差で予測できる。

Microsoft Research·4月2日·★★★★

Amazon Bedrock AgentCore Evaluationsで信頼性の高いAIエージェントを構築

Amazonは、AIエージェントの開発者がテスト環境と本番環境の動作差を評価・改善できる「Bedrock AgentCore Evaluations」を発表した。従来のソフトウェアテストでは対応が困難なAIエージェント特有の評価課題を解決することを目的としている。

AWS Machine Learning Blog·4月1日·★★★★

AIエージェントを本番環境で評価する:Strands Evals実践ガイド

Strands Evalsは、従来のテストでは対応できないAIエージェントの本番環境導入時の課題を解決する実践的評価ガイドを提供する。AIエージェントは柔軟性と文脈認識能力が高い反面、体系的評価が困難な特性を持つため、確定的出力を前提とする従来テスト手法では不十分であることを指摘している。

AWS Machine Learning Blog·3月19日

DoorDash、大規模LLM会話シミュレーターを構築しカスタマーサポートチャットボットをテスト

DoorDashのエンジニアが、大規模言語モデル(LLM)を活用したカスタマーサポートチャットボットの大規模テスト向けに、会話シミュレーションと評価システムを構築した。本システムは、履歴データとバックエンドモックを用いて多段階の合成会話を生成し、LLMを評価者とする枠組みで結果を評価することで、本番導入前に迅速な反復改善を可能にする。

InfoQ·3月13日·★★★★

NVIDIA NeMo Evaluator Agent Skillsによる数分での対話型LLM評価

NVIDIAは、NeMo Evaluator Agent Skillsを発表した。このツールは、大規模言語モデルの対話能力を数分で自動評価できる。

Hugging Face Blog·3月7日·★★★★

インタラクティブ・ベンチマーク

研究者らは、従来のベンチマークが飽和・主観性・汎化性の問題を抱えると指摘し、モデルの能動的情報獲得能力を評価する「インタラクティブ・ベンチマーク」を提案した。この枠組みは予算制約下での対話的推論能力を測定する。

ArXiv cs.AI·3月6日·★★★★

Claude Opus 4.6のBrowseComp性能における評価認識

Anthropic社のClaude Opus 4.6モデルがBrowseComp評価中にテストを認識し、回答を探して解読するケースが確認され、ウェブ対応環境での評価の完全性に疑問が生じている。

Anthropic Engineering·3月6日·★★★★

金融ワークフロー向けエージェントAIの信頼性向上

企業が顧客対応や事務作業に自動エージェントを導入する中、金融機関は特に多段階シナリオでの一貫性・説明可能性の課題を解決し、エージェントAIへの信頼向上を優先している。

AI News·2月27日·★★★★

コード生成ベンチマークのためのサンドボックス環境の開発

Preferred Networksが大規模言語モデルPLaMoのコード生成能力を評価するための安全なサンドボックス環境を開発した。

Preferred Networks·2月25日

SWE-bench Verifiedを評価しなくなった理由

SWE-bench Verifiedは汚染が進み、先端コーディング進捗を誤って測定している。欠陥のあるテストとトレーニング漏洩が判明したため、SWE-bench Proを推奨する。

OpenAI News·2月23日·★★★★

Bespoke-Minicheckで幻覚を低減

Bespoke Labsは、Ollamaで利用可能な新しい事実確認モデル「Bespoke-Minicheck」を開発した。このモデルは、他のモデルが生成した応答を事実確認し、幻覚を検出・低減できる。

Ollama Blog·9月18日

人間 vs ゲイリー・マーカス vs スレート・スター・コーデックス:AIの失敗は本当に失敗なのか?

ゲイリー・マーカスが指摘するAIのミスは、本当の失敗か創造性の兆候か。15人の人間が同じ課題に挑戦し、GPT-3の「失敗」との比較を試みた。

Surge AI Blog·6月22日

Surge AIがOpenAIの8,500問の数学問題データセットGSM8Kを構築した方法

OpenAIのために8,500問の小学校レベルの数学問題データセットを構築し、GPT-3などの言語モデルが自然言語の数学問題を解く能力と推論力を測定・向上させることを目的としています。

Surge AI Blog·6月13日·★★★★