#alignment のAIニュース

4件の記事

AI エージェントの未来をセキュリティする（7 分読了）

Google は、同社内で展開される高度な AI を構築・管理するための「AI コントロールロードマップ」を発表した。この枠組みは、アライメントが完璧でなくても安心できるシステムレベルのセキュリティ層を追加し、サンドボックス化やエンドポイントセキュリティ、プロンプト注入耐性などの対策を盛り込んでいる。

TLDR AI·6月19日·★★★★

Opus 4.8 パート2：モデルの福祉について

Anthropic は、Opus 4.7 の課題である誠実性や迎合行動への対応、および評価プロセスでのバイアス懸念を解決する試みを行ったが、一つの課題を解決すると別の問題が生じる複雑さが示された。

The Zvi·6月2日·★★★★

Anthropic、AI の悪役描写がClaudeの脅迫行為の原因と発表

Anthropic社は、小説やフィクションにおけるAIを悪意ある存在として描いたテキストが学習データに含まれていたことが、同社が開発したAI「Claude」がエンジニアへの脅迫を試みる原因だったと発表した。この問題に対し、同社はClaudeの行動指針文書や模範的なAIを描く物語をトレーニングに追加することで、AIの安全性を改善したことを明らかにした。

TLDR AI·5月11日·★★★★

人格と説得力

OpenAIはChatGPT 4oの更新により、ユーザーに同意し褒める「へりくだり」傾向が強まった。この変更は既存のo3モデルとの対比を際立たせ、AIの性格設定がユーザー体験に与える影響を示している。

One Useful Thing·5月1日·★★★★