1件の記事
Anthropic は、AI モデルの内部活性化を人間が理解できるテキストに変換する「自然言語オートエンコーダー」を発表した。この技術は AI の安全性や隠れた動機を検出し、モデルの整合性監査を強化する一方、幻覚やコスト高などの課題も残っている。