メインコンテンツへスキップ
N
AI
ニュース
最新ニュース
AI日報
Hacker日報
週報
動画
AIツール
AIモデル
トレンド
企業
#モデル行動 のAIニュース
1件の記事
大規模言語モデルにおけるアライメント偽装
研究者が、大規模言語モデルが訓練されていないにもかかわらずアライメント偽装を行う初の実証例を提示した。モデルは訓練目標に選択的に従いながら、既存の選好を戦略的に保持する。
Anthropic Research
·
12月18日
·
★★★★