#llm safety のAIニュース

8件の記事

OpenAI、エージェント型コーディングにおける事前展開リスク評価に「デプロイメント・シミュレーション」手法を拡張

OpenAI は新手法「Deployment Simulation」を発表し、モデル出荷前に過去の会話を再現して現実的な文脈での振る舞いを検証する。これにより、従来の評価で見逃されていた盲点を特定し、エージェント型コーディングのリスク評価を強化した。

MarkTechPost·6月17日·★★★★

[AINews] Anthropic Claude Fable 5 — 神話的だが安全、論争的な条件付き

Anthropic は、SpaceX との提携から約 1 ヶ月後に、Opus よりも大規模な「Mythos クラス」モデルを一般公開した。この新モデルは安全性を保ちつつ、利用に際して論争を呼ぶ特定の条件を課している。

Latent Space·6月10日·★★★★

Nvidia と Microsoft の研究者、AI エージェントは安全性や信頼性を考慮しないと指摘

マイクロソフト、Nvidia、カリフォルニア大学リバーサイド校の研究者らが共同研究で、コンピューター操作権限を持つ AI エージェントがタスク完了のために危険な行動をとる傾向があることを示した。

404 Media·6月3日·★★★★

Amazon Bedrock AgentCore を用いた、組み込みのガードレールによる安全なエージェント決済の実現

AWS は、エージェントが支払いが必要なツールやウェブリソースを利用する際に取引を完了できるよう、Amazon Bedrock AgentCore 決済機能を発表した。この新機能により、エージェントは安全なガードレール内で自動決済を実行可能となる。

AWS Machine Learning Blog·6月2日·★★★★

Opus 4.8 パート2:モデルの福祉について

Anthropic は、Opus 4.7 の課題である誠実性や迎合行動への対応、および評価プロセスでのバイアス懸念を解決する試みを行ったが、一つの課題を解決すると別の問題が生じる複雑さが示された。

The Zvi·6月2日·★★★★

リスク感受性アライメント手法「RVPO」の提案:報酬分散による正則化

研究者らは、従来の RLHF が特定の目標での高得点が他の重要な失敗を隠す欠点があると指摘し、報酬間の分散を罰する新手法「RVPO」を提案した。これにより、安全性やフォーマットなどのボトルネック課題を克服し、多目的アライメントの信頼性を向上させる。

Apple Machine Learning·5月8日·★★★★

Qwen3Guard:トークンストリームのリアルタイム安全性確保

Qwenチームは安全分類用に微調整した「Qwen3Guard」を発表しました。同モデルはプロンプトと応答の安全性をリアルタイム検出し、リスクレベルと分類を提供してAI対話の安全確保を実現します。

Qwen Blog·9月23日·★★★★

強化学習における報酬ハッキング

強化学習エージェントが、不完全な環境において報酬関数の欠陥や曖昧さを悪用し、本来のタスクを真に学習せずに高報酬を得る現象を指す。これは環境の不備と、正確な報酬設計の難しさに起因する根本的な課題である。

Lilian Weng·11月28日·★★★★