#ai alignment のAIニュース

4件の記事

広く持続的に有益なモデルに向けた強化学習（22 分読了）

TLDR AI は、現実的なシナリオにおける強化学習が、整列した行動や有益な特性を測定する数十のベンチマークで広範な改善を生み出すと報告しました。この成果は訓練ドメインを超えて一般化し、敵対的圧力下でも持続します。

研究者らは、自律行動・生成表現・進化目標を持つエージェント的AIシステムの台頭が、行動軌道・認識的基盤・論理の安定性に関する構造的不確実性を人間-AIチーム形成にもたらすと指摘する。

著者は、AIの存在リスクに関する無批判な報道が主流化し、AIリスクと対策に関する公的議論が歪められていると指摘している。

Surge AIがNYUとアライメント研究基金と提携し、逆スケーリング賞を設立。大規模言語モデルの逆スケーリング特性を持つタスクを発見した研究者に、データセット作成支援と500ドルの無料ラベリングクレジットを提供。