メインコンテンツへスキップ

#解釈可能性 のAIニュース

8件の記事

Anthropicの論文がLLMにおける感情様メカニズムの行動影響を検証

Anthropicは、大規模言語モデルが感情関連概念を内部でどのように表現し、それらの表現が行動にどのような影響を与えるかをClaude Sonnet 4.5の内部活性化を分析することで検証した。

InfoQ·4月14日

大規模言語モデルにおける感情概念とその機能

研究者が、大規模言語モデルにおける感情概念の機能と解釈可能性について分析した。

Anthropic Research·4月2日·★★★★

大規模言語モデルの相互作用の大規模識別

カリフォルニア大学バークレー校の研究者らが、大規模言語モデル(LLM)の相互作用を大規模に識別する手法を開発した。

Berkeley AI Research·3月13日

Guide Labs、解釈可能な新種のLLMを発表

Guide Labsは、行動が容易に解釈可能な新アーキテクチャで訓練された80億パラメータのLLM「Steerling-8B」をオープンソース化しました。

TechCrunch AI·2月24日·★★★★

2026年2月23日 アライメント ペルソナ選択モデル

2026年2月23日に発表された、AIのペルソナ選択モデルに関するアライメント(整合性)の研究についての記事。

Anthropic Research·2月23日·★★★★

解釈可能性

解釈可能性は、AIや機械学習モデルの意思決定プロセスを人間が理解できるようにする概念で、透明性と信頼性の向上を目指します。

Anthropic Research·2月21日·★★★★

Gemma Scope 2:AI安全コミュニティが複雑な言語モデルの挙動理解を深める支援

GoogleはGemma 3ファミリー全体でGemma Scope 2をリリースし、言語モデルの解釈可能性ツールを公開した。これによりAI安全コミュニティが複雑な言語モデルの挙動をより深く理解できるよう支援する。

Google DeepMind·12月16日

大規模言語モデルにおける内省の兆候

研究チームがClaudeの内省能力を調査し、限定的ながら機能的な自己内部状態へのアクセスと報告能力の証拠を発見した。これはモデル内部の理解に向けた一歩である。

Anthropic Research·10月29日·★★★★