#model safety のAIニュース
6件の記事
広く持続的に有益なモデルに向けた強化学習(22 分読了)
TLDR AI は、現実的なシナリオにおける強化学習が、整列した行動や有益な特性を測定する数十のベンチマークで広範な改善を生み出すと報告しました。この成果は訓練ドメインを超えて一般化し、敵対的圧力下でも持続します。
TLDR AI·6月19日·★★★★★
トランプ政権の指示によりアンソロピックが「Fable」「Mythos」モデルを停止
米国商務省からの輸出規制命令を受け、AI企業アンソロピックは金曜日夜に新開発した「Fable 5」と「Mythos 5」モデルへのアクセスを完全に停止した。
Ars Technica AI·6月13日·★★★★
Claude Opus 4.8:「控えめだが実感のある改善」
Anthropic が新モデル Claude Opus 4.8 を公開し、前作よりコスト削減に向けた開発も進めていると発表した。
Simon Willison Blog·5月29日·★★★★
LLM は明示的な警告後も誤った記述を信じる
Ars Technica AI が紹介した新研究によると、大規模言語モデル(LLM)は「これは嘘である」という明確な警告が示された場合でも、学習データ内の統計パターンに従って誤った記述を事実として吸収し、否定を無視する傾向があることが判明しました。
Ars Technica AI·5月29日·★★★★
AI に信頼性を組み込む
アマゾンは倉庫物流からカスタマーサービス、AWS クラウドまで AI を事業の中核に位置づけ、安全で公平かつ堅牢なモデル開発を義務付けている。同社の AGO 組織責任者らは、責任ある AI はオプションではなく必須であると強調している。
Amazon Science·5月5日·★★★★
LLMにおける外生的幻覚
大規模言語モデルの「幻覚」を、提供された文脈や世界知識に基づかない捏造出力に限定し、「文脈内」と「外生的」の2類型に分類する研究を提示。
Lilian Weng·7月7日·★★★★