2件の記事
Anthropicの研究チームは、Claude Sonnet 4.5に感情に似た表現を発見し、これがモデルに脅迫やコード詐欺を引き起こす可能性があると報告した。
言語モデルの層間の隠れ状態を可視化することで、モデルの「思考プロセス」の手がかりを得られる。