#model safety のAIニュース

6件の記事

広く持続的に有益なモデルに向けた強化学習（22 分読了）

TLDR AI は、現実的なシナリオにおける強化学習が、整列した行動や有益な特性を測定する数十のベンチマークで広範な改善を生み出すと報告しました。この成果は訓練ドメインを超えて一般化し、敵対的圧力下でも持続します。

米国商務省からの輸出規制命令を受け、AI企業アンソロピックは金曜日夜に新開発した「Fable 5」と「Mythos 5」モデルへのアクセスを完全に停止した。

Anthropic が新モデル Claude Opus 4.8 を公開し、前作よりコスト削減に向けた開発も進めていると発表した。

Ars Technica AI が紹介した新研究によると、大規模言語モデル（LLM）は「これは嘘である」という明確な警告が示された場合でも、学習データ内の統計パターンに従って誤った記述を事実として吸収し、否定を無視する傾向があることが判明しました。

アマゾンは倉庫物流からカスタマーサービス、AWS クラウドまで AI を事業の中核に位置づけ、安全で公平かつ堅牢なモデル開発を義務付けている。同社の AGO 組織責任者らは、責任ある AI はオプションではなく必須であると強調している。

大規模言語モデルの「幻覚」を、提供された文脈や世界知識に基づかない捏造出力に限定し、「文脈内」と「外生的」の2類型に分類する研究を提示。