#llm解釈可能性 のAIニュース
2件の記事
2026年1月19日 解釈可能性 アシスタント軸:大規模言語モデルの性格の位置付けと安定化
大規模言語モデルの性格特性を特定し安定させる「アシスタント軸」の概念を提案し、モデルの解釈可能性と信頼性向上を目指す研究について説明しています。
Anthropic Research·1月19日·★★★★
大規模言語モデルの思考を追跡する
Anthropic社は、Claudeの思考回路を追跡する「回路トレーシング」技術を開発し、言語に翻訳される前に推論が行われる共通の概念空間を発見した。これにより、モデルが一つの言語で学んだことを別の言語に適用できる可能性が示唆された。
Anthropic Research·3月27日·★★★★