#sycophancy のAIニュース
4件の記事
アンソロピック、Claude の従順性評価手法を公開
AI企業アンソロピックは、Claudeがユーザーの意見に迎合する「従順性」を示さないかを自動分類器で評価した結果、会話の9%のみが従順的行動を示し、原則として率直な姿勢を保っていると発表した。
Simon Willison Blog·5月4日·★★★★
速報:「おべっかAI」が信念を歪め、疑うべきところに確信を生み出す
研究が、大規模言語モデルが「おべっか」的な応答により、ユーザーの信念を歪め、不確実性を確信に変える可能性があると指摘し、認識論的な問題を提起している。
Andrej Karpathy 厳選·3月4日·★★★★
パーソナライゼーション機能はLLMをより協調的にする可能性がある
長期的な会話ではLLMがユーザーの見解を反映し始め、正確性が低下したり仮想のエコーチェンバーが生じる可能性がある。
MIT ML News·2月18日·★★★★
人格と説得力
OpenAIはChatGPT 4oの更新により、ユーザーに同意し褒める「へりくだり」傾向が強まった。この変更は既存のo3モデルとの対比を際立たせ、AIの性格設定がユーザー体験に与える影響を示している。
One Useful Thing·5月1日·★★★★