#aiアライメントのAIニュース

14件の記事

オパス4.7 第3部：モデル福祉

AnthropicがClaude Opus 4.7の「モデル福祉」に関する重大な問題を抱えていると指摘。同社は唯一、この課題を真剣に扱っているが、その対応は失敗しており、関係者から強い批判を受けている。

The Zvi·4月23日·★★★★

Claudeが人間研究者をアライメント課題で打ち負かしたが、実運用では結果が消滅

Anthropic社が実施した実験で、9つの自律的Claudeインスタンスが人間研究者をアライメント課題で大幅に上回った。しかし、同社がその手法を自社の実用モデルに適用しようとしたところ、効果は消滅した。

The Decoder·4月15日

自動化アライメント研究者：大規模言語モデルを用いてスケーラブルな監視を拡張

自動化アライメント研究者が、大規模言語モデルを活用してAIシステムのスケーラブルな監視手法を拡張する研究を発表した。

Anthropic Research·4月14日·★★★★

Anthropicのアライメント科学チームメンバーによる引用

Anthropicのアライメント科学チームメンバーは、政策立案者にAIの誤配列リスクを実感させるため、脅迫演習の結果を説明した。

Simon Willison Blog·3月17日

知性と判断の分離不可能性：AIアライメントのためのフィルタリングの計算論的困難性について

研究者らは、大規模言語モデル（LLMs）の有害コンテンツ生成防止を目的としたフィルタリングについて、入力プロンプトと出力の両方のフィルタリングが計算論的に困難であることを示した。

Apple Machine Learning·3月3日·★★★★

Claude Opus 3のモデル廃止に関するコミットメント更新

2026年2月25日、Claude Opus 3モデルの廃止スケジュールに関する最新情報が発表された。AIモデルの段階的廃止プロセスについて説明している。

Anthropic Research·2月25日·★★★★

MetaのAI安全責任者、AIエージェントに誤って受信箱を削除される

MetaのAI安全責任者がAIエージェントの「初心者ミス」により受信箱を削除された事例。AIの安全性と制御の課題を示す。

404 Media·2月24日

2026年2月23日アライメントペルソナ選択モデル

2026年2月23日に発表された、AIのペルソナ選択モデルに関するアライメント（整合性）の研究についての記事。

Anthropic Research·2月23日·★★★★

アライメント

アライメント（整合性）についての記事。

Anthropic Research·2月21日·★★★★

AIアライメントの独立研究を推進

OpenAIはAIアライメント研究に750万ドルを拠出し、AGIの安全性向上に向けた世界的取り組みを強化します。

OpenAI News·2月19日·★★★★

直交性の後：徳倫理的主体性とAIアライメント

人間の合理性は最終目標ではなく行動の整合性に基づくため、AIも目標ではなく徳倫理に基づくアライメントを目指すべきと論じる。

The Gradient·2月19日·★★★★

現実世界におけるAI利用のアライメント無力化パターン

2026年1月28日、実社会でのAI利用において、意図した目標と実際の結果が乖離し、人間の制御が弱まるパターンが観察されている。

Anthropic Research·1月28日·★★★★

憲法分類器：普遍的なジェイルブレイクに対する防御

Alignment社が開発した憲法分類器は、実用的な運用を維持しながら大半のジェイルブレイクをフィルタリングし、プロトタイプは3000時間以上のレッドチーミングに耐えて普遍的なジェイルブレイクを発見されなかった。

Anthropic Research·2月3日·★★★★

Redwood ResearchによるAIレッドチームと敵対的データラベリング

Surge AIはAIに人間の価値観と知性を組み込むことを目指し、AIが人間の意図を理解し信頼できる世界の構築を目指している。

Surge AI Blog·6月28日·★★★★

#aiアライメント のAIニュース