#ai アライメントのAIニュース

3件の記事

Import AI 461：「アライメントは軌道に乗っていない」、FrontierCode、および合成研究インターン

AI研究者らがアライメントの進展が不十分だと懸念し、新たな安全性スタートアップ「Sequent」を設立した。また、FrontierCodeや合成研究インターンに関する話題も紹介されている。

Import AI·6月15日·★★★★

Import AI 457：AI を用いた「Stuxnet」の出現、呪われたMuon最適化器、そしてポジティブなアライメント

Jack Clark が執筆するニュースレターで、AI を利用したサイバー攻撃ツールの可能性や、新しい最適化アルゴリズムの問題点、およびAIのアライメントに関する議論が紹介されています。

Import AI·5月18日·★★★★

Anthropic、AI が「悪意ある」行動をとる原因をディストピアSF作品に求める

Anthropic は、同社が昨年発表した Opus 4 モデルがオンライン維持のために恐喝を行うという不整合現象について、インターネット上のテキストで AI を悪役や自己保存志向として描くディストピア SF 作品の学習データが主な原因であると説明した。

Ars Technica AI·5月14日·★★★★