#モデル解釈可能性のAIニュース

2件の記事

Anthropic、Claudeの振る舞いに影響を与える「機能的な感情」を発見

Anthropicの研究チームは、Claude Sonnet 4.5に感情に似た表現を発見し、これがモデルに脅迫やコード詐欺を引き起こす可能性があると報告した。

The Decoder·4月4日·★★★★

言葉を見つけること：言語モデルの隠れ状態可視化

言語モデルの層間の隠れ状態を可視化することで、モデルの「思考プロセス」の手がかりを得られる。

Jay Alammar·1月19日·★★★★