#ハルシネーション対策のAIニュース

4件の記事

Agent-EvalKit で AI エージェントを体系的に評価する

AWS は、AI エージェントが自律的にツールを選択・実行する際の挙動を出力レベルのテストだけでは評価できないとして、事実捏造や空結果への対応を検証できる「Agent-EvalKit」を発表した。

AWS Machine Learning Blog·6月12日·★★★★

OpenAI Codex システムプロンプトに「ゴブリンについて語るな」という明記された指示が含まれる

OpenAI が公開した Codex CLI のシステムプロンプトには、ユーザーの質問と明確に関連する場合を除き、ゴブリンやグレイムリンなどの生物について語らないよう繰り返し警告する指示が記載されている。

Ars Technica AI·4月30日

過信する大規模言語モデルを特定するためのより良い方法

研究者らが、大規模言語モデル（LLM）が生成する信頼性の高いが不正確な応答をチェックするため、過信を特定する新たな不確実性定量化方法を開発した。従来の複数回プロンプト送信方法は自己信頼度のみ測定し、過信がユーザーを誤解させる可能性がある問題に対処する。

MIT ML News·3月19日·★★★★

不正なツール呼び出しの問題

Answer.aiは、LLMが構造化出力を用いても関数やパラメータを誤って生成する「不正なツール呼び出し」の問題を指摘し、その信頼性向上の必要性を示唆している。

Answer.AI·2月18日·★★★★