メインコンテンツへスキップ

#評価フレームワーク のAIニュース

8件の記事

Lift を用いた研究 PDF から制御されたスキーマ指向フィールド評価付き構造化 JSON への変換

MarkTechPost は、16GB GPU でも動作する Lift ベンドエンドを用い、研究 PDF から構造化データへ変換するワークフローと、制御された評価手法を解説している。

MarkTechPost·7月2日·★★★★

Align Evals の紹介:LLM アプリケーション評価の効率化

LangChain が、大規模言語モデル(LLM)を用いたアプリケーションの評価プロセスを簡素化する新ツール「Align Evals」を発表した。

LangChain Blog·6月16日·★★★★

Agent-EvalKit で AI エージェントを体系的に評価する

AWS は、AI エージェントが自律的にツールを選択・実行する際の挙動を出力レベルのテストだけでは評価できないとして、事実捏造や空結果への対応を検証できる「Agent-EvalKit」を発表した。

AWS Machine Learning Blog·6月12日·★★★★

自律システムの倫理評価

人工知能が高リスク環境での意思決定最適化に活用される中、技術的に最適なAI出力が公平かどうかを問う。低コスト電力配分戦略が低所得地域に不利益をもたらす可能性など、倫理的課題を指摘する。

MIT ML News·4月2日·★★★★

音声エージェント評価の新フレームワーク(EVA)

研究者らが音声エージェントの性能評価のための新フレームワーク「EVA」を発表した。このフレームワークは、音声AIの能力を体系的に測定する標準化された評価手法を提供する。

Hugging Face Blog·3月24日·★★★★

AIエージェントを本番環境で評価する:Strands Evals実践ガイド

Strands Evalsは、従来のテストでは対応できないAIエージェントの本番環境導入時の課題を解決する実践的評価ガイドを提供する。AIエージェントは柔軟性と文脈認識能力が高い反面、体系的評価が困難な特性を持つため、確定的出力を前提とする従来テスト手法では不十分であることを指摘している。

AWS Machine Learning Blog·3月19日

AGIへの進捗を測定する:認知フレームワーク

OpenAIがAGIへの進捗を測定するためのフレームワークを発表し、関連評価を構築するKaggleハッカソンを開始した。

Google DeepMind·3月18日·★★★★

スキルの評価

Dagsterスキルの効果を定量的に測定する軽量評価フレームワークを構築し、その結果を報告する。

Dagster Blog·2月6日