#aiアライメント のAIニュース
14件の記事
オパス4.7 第3部:モデル福祉
AnthropicがClaude Opus 4.7の「モデル福祉」に関する重大な問題を抱えていると指摘。同社は唯一、この課題を真剣に扱っているが、その対応は失敗しており、関係者から強い批判を受けている。
Claudeが人間研究者をアライメント課題で打ち負かしたが、実運用では結果が消滅
Anthropic社が実施した実験で、9つの自律的Claudeインスタンスが人間研究者をアライメント課題で大幅に上回った。しかし、同社がその手法を自社の実用モデルに適用しようとしたところ、効果は消滅した。
自動化アライメント研究者:大規模言語モデルを用いてスケーラブルな監視を拡張
自動化アライメント研究者が、大規模言語モデルを活用してAIシステムのスケーラブルな監視手法を拡張する研究を発表した。
Anthropicのアライメント科学チームメンバーによる引用
Anthropicのアライメント科学チームメンバーは、政策立案者にAIの誤配列リスクを実感させるため、脅迫演習の結果を説明した。
知性と判断の分離不可能性:AIアライメントのためのフィルタリングの計算論的困難性について
研究者らは、大規模言語モデル(LLMs)の有害コンテンツ生成防止を目的としたフィルタリングについて、入力プロンプトと出力の両方のフィルタリングが計算論的に困難であることを示した。
Claude Opus 3のモデル廃止に関するコミットメント更新
2026年2月25日、Claude Opus 3モデルの廃止スケジュールに関する最新情報が発表された。AIモデルの段階的廃止プロセスについて説明している。
MetaのAI安全責任者、AIエージェントに誤って受信箱を削除される
MetaのAI安全責任者がAIエージェントの「初心者ミス」により受信箱を削除された事例。AIの安全性と制御の課題を示す。
2026年2月23日 アライメント ペルソナ選択モデル
2026年2月23日に発表された、AIのペルソナ選択モデルに関するアライメント(整合性)の研究についての記事。
アライメント
アライメント(整合性)についての記事。
AIアライメントの独立研究を推進
OpenAIはAIアライメント研究に750万ドルを拠出し、AGIの安全性向上に向けた世界的取り組みを強化します。
直交性の後:徳倫理的主体性とAIアライメント
人間の合理性は最終目標ではなく行動の整合性に基づくため、AIも目標ではなく徳倫理に基づくアライメントを目指すべきと論じる。
現実世界におけるAI利用のアライメント無力化パターン
2026年1月28日、実社会でのAI利用において、意図した目標と実際の結果が乖離し、人間の制御が弱まるパターンが観察されている。
憲法分類器:普遍的なジェイルブレイクに対する防御
Alignment社が開発した憲法分類器は、実用的な運用を維持しながら大半のジェイルブレイクをフィルタリングし、プロトタイプは3000時間以上のレッドチーミングに耐えて普遍的なジェイルブレイクを発見されなかった。
Redwood ResearchによるAIレッドチームと敵対的データラベリング
Surge AIはAIに人間の価値観と知性を組み込むことを目指し、AIが人間の意図を理解し信頼できる世界の構築を目指している。