#モデルアライメント のAIニュース
3件の記事
異種嗜好アラインメントのためのパーソナライズドグループ相対ポリシー最適化
研究者らは、大規模言語モデル(LLM)が多様な個人嗜好に適合できない問題に対処するため、パーソナライズドグループ相対ポリシー最適化(P-GRPO)を提案した。この手法は、従来のGRPOがグループ内でサンプルを交換可能と仮定する制限を克服し、異なるユーザーグループの嗜好に個別に適合するポリシーを学習する。
Apple Machine Learning·4月2日·★★★★
2026年1月19日 解釈可能性 アシスタント軸:大規模言語モデルの性格の位置付けと安定化
大規模言語モデルの性格特性を特定し安定させる「アシスタント軸」の概念を提案し、モデルの解釈可能性と信頼性向上を目指す研究について説明しています。
Anthropic Research·1月19日·★★★★
高品質な人間データについて考える
現代の深層学習モデル訓練において、高品質なデータは不可欠な燃料である。多くのタスク固有のラベル付きデータは、分類作業など人間による注釈付けから得られている。
Lilian Weng·2月5日·★★★★