#解釈可能性のAIニュース

8件の記事

Anthropicの論文がLLMにおける感情様メカニズムの行動影響を検証

Anthropicは、大規模言語モデルが感情関連概念を内部でどのように表現し、それらの表現が行動にどのような影響を与えるかをClaude Sonnet 4.5の内部活性化を分析することで検証した。

研究者が、大規模言語モデルにおける感情概念の機能と解釈可能性について分析した。

カリフォルニア大学バークレー校の研究者らが、大規模言語モデル（LLM）の相互作用を大規模に識別する手法を開発した。

Guide Labsは、行動が容易に解釈可能な新アーキテクチャで訓練された80億パラメータのLLM「Steerling-8B」をオープンソース化しました。

2026年2月23日に発表された、AIのペルソナ選択モデルに関するアライメント（整合性）の研究についての記事。

解釈可能性は、AIや機械学習モデルの意思決定プロセスを人間が理解できるようにする概念で、透明性と信頼性の向上を目指します。

GoogleはGemma 3ファミリー全体でGemma Scope 2をリリースし、言語モデルの解釈可能性ツールを公開した。これによりAI安全コミュニティが複雑な言語モデルの挙動をより深く理解できるよう支援する。

研究チームがClaudeの内省能力を調査し、限定的ながら機能的な自己内部状態へのアクセスと報告能力の証拠を発見した。これはモデル内部の理解に向けた一歩である。