#safety & alignment のAIニュース

2件の記事

自己帰属バイアス：AIモニターが自らを甘く評価する傾向

研究者らが、言語モデルが自身の行動を監視する際、ユーザーではなく自身が提示した行動を評価すると、自己帰属バイアスが生じ、甘い評価を下す傾向があることを示した。

ArXiv cs.AI·3月6日·★★★★

GenCtrl -- 生成モデルのための形式的制御可能性ツールキット

研究者らは、生成モデルの制御可能性を理論的に評価する枠組みを提案し、人間とモデルの相互作用を制御プロセスとして捉えた新アルゴリズムを開発した。

Apple Machine Learning·3月6日