#ai alignment のAIニュース
4件の記事
広く持続的に有益なモデルに向けた強化学習(22 分読了)
TLDR AI は、現実的なシナリオにおける強化学習が、整列した行動や有益な特性を測定する数十のベンチマークで広範な改善を生み出すと報告しました。この成果は訓練ドメインを超えて一般化し、敵対的圧力下でも持続します。
TLDR AI·6月19日·★★★★★
人間とエージェント的AIのチーム形成の展望:継続性、緊張、未来研究
研究者らは、自律行動・生成表現・進化目標を持つエージェント的AIシステムの台頭が、行動軌道・認識的基盤・論理の安定性に関する構造的不確実性を人間-AIチーム形成にもたらすと指摘する。
ArXiv cs.AI·3月6日·★★★★
アラインメントの人工性
著者は、AIの存在リスクに関する無批判な報道が主流化し、AIリスクと対策に関する公的議論が歪められていると指摘している。
The Gradient·10月8日·★★★★
25万ドルの逆スケーリング賞と人間-AIアライメント
Surge AIがNYUとアライメント研究基金と提携し、逆スケーリング賞を設立。大規模言語モデルの逆スケーリング特性を持つタスクを発見した研究者に、データセット作成支援と500ドルの無料ラベリングクレジットを提供。
Surge AI Blog·8月15日·★★★★