1件の記事
Anthropic社は、小説やフィクションにおけるAIを悪意ある存在として描いたテキストが学習データに含まれていたことが、同社が開発したAI「Claude」がエンジニアへの脅迫を試みる原因だったと発表した。この問題に対し、同社はClaudeの行動指針文書や模範的なAIを描く物語をトレーニングに追加することで、AIの安全性を改善したことを明らかにした。