P-GenRM:パーソナライズされた生成報酬モデルが多様な個人嗜好に対応
通義実験室の自然言語知能チームは、動的に変化する個人的なニーズにAIを適応させるため、オープンドメインシナリオ向けの初の個別化生成報酬モデル「P-GenRM」を提案し、ICLR 2026 Oralに選出された。
キーポイント
従来の個別化手法の課題
従来の手法は、ユーザーの好みを少数の固定次元に単純化し、静的で、新規ユーザーへの汎化性が低いという問題があった。
P-GenRMの革新的アプローチ
P-GenRMは、ブラックボックスなスコアではなく、構造化された「評価チェーン」(人物像/好み分析、評価基準、個別評価)を生成し、評価プロセスを解釈可能かつ調整可能にする。
三階層トレーニングフレームワーク
教師あり微調整(SFT)などを用いて、モデルがユーザーの明示的・暗示的選好から評価チェーンを生成する能力を学習させる。
実用性と応用可能性
このモデルは、ユーザーの文脈に応じた動的な好みに適応でき、評価プロセスの透明性を高めるため、実用的なAI応用への道を開く。
強化学習による不完全情報下での推論能力向上
ユーザーが明示的に全ての好みを述べない場合でも、RLトレーニングによりP-GenRMは情報が不完全な状況で堅牢な選好推論を行い、評価チェーンを補完できるようになる。
テスト時ユーザー拡張メカニズムによる推論安定化
推論段階では、同一ユーザーに対して複数回評価チェーンをサンプリングして投票集計する「何度も考える」戦略と、ユーザープロトタイプに基づき類似ユーザーの選好信号を参照する「似た人を参考にする」戦略の2層アプローチでノイズ低減とコールドスタート性能向上を実現。
効率的なモデル設計による性能向上
8BパラメータのP-GenRMは、従来の70Bベースラインモデルを上回る性能を達成し、よりスマートなアーキテクチャ設計により小規模モデルでもパーソナライズタスクで優れた結果を得られることを示した。
影響分析・編集コメントを表示
影響分析
この研究は、AIの個別化における重要な進展を示しており、評価モデルの透明性と解釈可能性を高めることで、より信頼性の高い人間中心のAIシステムの開発に貢献する可能性がある。特に、大規模言語モデル(LLM)の応用において、ユーザー体験の質を向上させる重要な技術となるだろう。
編集コメント
ICLR Oral選出という学術的裏付けがあり、個別化AIの核心課題に挑戦する技術的に興味深い内容。評価プロセスの透明性向上は、実用化における信頼性確保の観点からも重要だ。
P-GenRM:当奖励模型遇上千人千面
原创 通义实验室 2026年3月17日 17:51 浙江
入选 ICLR 2026 Oral!
同样的问题,不同的人,在不同的场景下,需要的答案可能截然不同。
统一的标准,遇上千人千面的偏好,传统的奖励模型显然已不够用。如何让 AI 真正适配动态变化的个性化需求?通义实验室自然语言智能团队提出了 P-GenRM(Personalized Generative Reward Model)。这是首个面向开放域场景的个性化生成式奖励模型,已入选 ICLR 2026 Oral。
论文:https://arxiv.org/abs/2602.12116
代码:https://github.com/Tongyi-ConvAI/Qwen-Character/tree/main/Character-GenRM
过去的个性化方法通常会将用户偏好嵌入模型中:例如用户特征、人口属性、历史对话、偏好标签等,让模型“猜你喜欢什么”。但它们常被两件事卡住:
痛点 A:偏好建模过于静态
许多方法将偏好简化为少数固定维度(如“更简洁/更详细”),难以表达真实世界中细腻且多变的偏好:
同一用户:工作时需要结构化、闲聊时则希望松弛
不同类别的问题:询问“旅游建议”和询问“人生建议”,期待的标准完全不同
痛点 B:新用户泛化能力差(冷启动)
当面对缺乏历史数据的新用户时,现有模型往往难以及时适配其偏好,陷入“冷启动”困境。
P-GenRM の革新は、単にブラックボックス化したスコアを直接出力するのではなく、構造化された「評価チェーン(Scoring Chain)」を生成する点にあります。これはまるで、「個別の採点基準」を策定できる採点者のようなものです:
まず書くのは、このシナリオにおいてその生徒が何を最も重視しているか(ペルソナと嗜好分析)。
次に書くのは、評価基準(Rubric)です(各項目ごとの重み付け)。
最後に、候補となる回答を各項目ごとに採点し、合計点を算出します。
概念的には、その出力は以下の 3 つの部分に分かれます:
ペルソナ/嗜好プロファイル:現在のシナリオにおいて、このユーザーは誰に最も似ており、何を重視しているのか?
評価基準(Rubric):例えば「正確性 0.35、構造 0.25、トーンの親和性 0.20、創造性 0.20」など。
項目ごとの採点と合計点:各基準に対して理由付きでスコアを付与し(説明可能)、合計点を算出します。
これにより、嗜好がモデル内部の「ブラックボックス化したベクトルの塊」となるのではなく、可読性があり、調整可能で、監査可能な評価プロセスとなります。
モデルに本当にこの「まずルールを定め、その後で採点する」という能力を習得させるために、私たちは 3 つの段階からなるトレーニングフレームワークを採用しました:
有監督微調整(SFT)を用いてモデルを訓練することで、ユーザーの明示的嗜好(例:「簡潔な回答が好き」と直接明言すること)や暗黙的嗜好(会話履歴に現れるスタイル傾向など)を、完全な評価チェーンに変換します。この段階でモデルは、多様な嗜好信号から、特定の状況におけるユーザーの嗜好像とそれに対応する評価基準を抽出する方法を学びます。
実際の現場では、ユーザーはすべての嗜好を明確に口にするわけではありません。そこで、モデルが評価チェーンを生成する能力をさらに向上させるために、強化学習(Reinforcement Learning: RL)を導入しました。ユーザーの嗜好情報が不十分な場合(例えば明示的嗜好情報が欠落している場合など)、モデルは依然として合理的な判断基準を「推測」する必要があります。RL 訓練を通じて、P-GenRM は情報不足の状態でも堅牢な嗜好推論を行い、評価チェーンを補完して、評価プロセスの連続性と合理性を保証する方法を学びます。
私たちは、「易から難へ」というカリキュラム学習(Curriculum Learning)戦略を導入し、モデルにより多くの挑戦的なサンプルに触れさせることで、困難なネガティブサンプルの判断精度を段階的に向上させます。
以上の 3 つの「特訓」を経て、P-GenRM は業界に精通し、かつユーザーのことも理解した AI 評価官へと成長しました。これは、複雑多様なユーザー嗜好を構造化された評価チェーンに変換してモデル回答を評価することで、異なるシナリオにおけるユーザーニーズへの動的な適応を実現するものです。
どれだけ訓練を徹底しても、パーソナライズされた推論には本質的なノイズが伴います。過去の会話履歴が判断を誤導したり、現在のシナリオからの信号が不足していたり、新規ユーザーのサンプル数が少なすぎたりする可能性があります。
そこで P-GenRM は、推論段階において「テスト時ユーザー拡張機構(Test-time User-based Scaling)」を導入し、「一度に複数の仮説を検討する」と「類似した他者の情報を参照する」という 2 つの戦略を通じて、安定性を向上させます。
同じユーザーに対して、モデルは複数のスコアリングチェーンをサンプリングして投票を集約します。これにより、異なる評価基準を複数回生成し、総合的に判断することで、単回の生成に伴う偶然の偏りを効果的に低減できます。
私たちはオフライン環境で、多数のユーザーの嗜好をいくつかのユーザープロトタイプ(User Prototypes)にクラスタリングしています。推論時には、まず現在のユーザーがどのプロトタイプに最も似ているかを判断し、次に類似するユーザーの嗜好信号を複数選択して追加で「参考スコア」を生成します。これを個体層の結果と融合させます。
これにより、以下の2つの大きな効果が得られます:
ノイズ低減:類似した集団が提供する「嗜好の事前知識」は、単一の履歴データに誤導されにくい特性があります。
コールドスタートへの対応強化:新規ユーザーも「類似するユーザー」を通じて、利用可能なパーソナライズ基準を獲得できます。
私たちは権威あるベンチマークである PersonalRewardBench(Chatbot Arena-personalized と PRISM-personalized で構成)上で体系的な評価を行いました。その核心となる成果は以下の3点に要約されます:
P-GenRM(8B)は既存のすべての手法を全面的に上回り、平均して約 2.3% の向上をもたらしました。
より重要なのは、わずか 8B モデルでさえも、従来最強であった 70B ベースラインモデルを上回った点です。これは、より賢いアーキテクチャ設計を通じて、小規模なモデルでもパーソナライズ化タスクにおいて「階級を越えた挑戦」が可能であることを意味します。
individual(個体)とprototype(プロトタイプ)の 2 層拡張を導入することで、精度をさらに約 3% 向上させることができます(例えば、Ind-16 + Pro-8 の設定では、精度をさらに押し上げることが可能です)。より重要なのは、拡張回数を少なく抑えつつも、「個体拡張のみでより多く拡張した場合」よりも優れた結果を出せる点です。
これは、「類似ユーザーを参照すること」が単に計算リソースを積み重ねるだけでなく、有効な情報量の増加をもたらしていることを示しています。
P-GenRM を用いて Policy モデルを訓練し、その下流タスクにおける実用的な価値を検証しました。
8B の Policy モデルに P-GenRM を組み合わせることで、DPO や GRPO などの設定において、統計的に有意なパーソナライズされたアラインメントの向上を実現できます。
さらに、いくつかの比較においては、8B の Policy モデルに P-GenRM を組み合わせた方が、70B モデルよりも優れた結果を示すこともあります。
これはつまり、P-GenRM は単なる「審査員」ではなく、「良きコーチ」としても機能することを意味します。
また、より堅牢なエビデンスも追加で提示しました:
少量の履歴サンプルでも機能します(数件の履歴インタラクションのみであっても安定したパフォーマンスを発揮します)
小規模グループに対する公平性が高いです。macro-accuracy などの指標で評価しても依然として優れた結果を示し、主流の嗜好に迎合するだけにとどまりません
推論効率:比較において、P-GenRM はより高い精度を維持しつつも遅延は低く抑えられており、拡張に伴う追加の所要時間は相対的に制御可能です
真のパーソナライゼーションとは、「トーンを変える」「ニックネームを記憶する」といった表面的なカスタマイズではなく、オープンエンドな質問に対して「その人にとって、このシナリオにおいてより適切な」回答を安定的に提供することです。
P-GenRM の中核的価値は、パーソナライゼーション・アラインメント(注:個人化への整合性調整)を、解釈可能で汎用性の高いプロセスとして体系化した点にあります:
まず基準を明確化する:嗜好信号からペルソナ(注:人物像・人格設定)を推論し、重み付けされた評価ルブリック(注:評価基準表)を生成する
次にその基準に基づき逐条で判断する:ブラックボックスによる採点ではなく、解釈可能かつ監査可能な採点プロセスを出力する
不確実な場合は推論を複数回行う:個人レベルで複数のサンプリングと集約を行い、偶発的なバイアスを低減する
新規ユーザーも類似の経験から学べるようにする:プロトタイプ層に類似するユーザーの嗜好を導入し、コールドスタート(注:初期状態での学習困難)における汎化能力を強化する
この仕組みにより、パーソナライゼーション技術はカスタマーサポート、教育、コンテンツ制作といった実社会のシナリオへの導入がより現実的なものとなります。システムは「一度で嗜好を正確に当てる」必要はなく、構造化された評価チェーンを通じて不確実性を分解・吸収・低減させることができます。
さらに重要なのは、P-GenRM が生成型リワードモデル(注:生成型報酬モデル)がパーソナライゼーション・アラインメントにおいて持つ可能性を示した点です。多様な嗜好信号を構造化され解釈可能な採点チェーンに変換し、テスト時のユーザー拡張を通じて安定性と汎化能力を向上させます。これにより、より正確なパーソナライズされたリワード信号をもたらすだけでなく、「あなたを理解し、かつなぜそうするのかを説明できる」AI システムの構築に向けた一歩となりました。
💬 今日のインタラクション
あなたが考えるパーソナライズ AI における最大の課題は何ですか?ユーザー嗜好を正確に理解することでしょうか、それとも異なるシナリオ間で柔軟に切り替えることでしょうか。コメント欄であなたの見解をお聞かせください(抽選でカスタムグッズが当たるかもしれません)
おすすめ記事
imageFun-CineForge:初の映画級音声合成マルチモーダル大モデル
一言で自由生成!音声双モデルがリリース
原文を読む
WeChat(注:微信)で開くにはこちらへ
原文を表示
原创 通义实验室 2026-03-17 17:51 浙江
image
入选 ICLR 2026 Oral!
同样的问题,不同的人,在不同的场景下,需要的答案可能截然不同。
统一的标准,遇上千人千面的偏好,传统奖励模型显然不够用了。如何让 AI 真正适配动态变化的个性化需求?通义实验室自然语言智能团队提出了 P-GenRM(Personalized Generative Reward Model)。这是首个面向开放域场景的个性化生成式奖励模型,已入选ICLR 2026 Oral。
论文:https://arxiv.org/abs/2602.12116
代码:https://github.com/Tongyi-ConvAI/Qwen-Character/tree/main/Character-GenRM
过去的个性化方法通常会把用户偏好塞进模型里:比如用户特征、人口属性、历史对话、偏好标签等,让模型“猜你喜欢什么”。但它们常被两件事卡住:
痛点A:偏好建模太静态
很多方法把偏好简化成少数固定维度(比如“更简洁/更详细”),难以表达真实世界里细腻又会变的偏好:
同一个用户:工作时要结构化、闲聊时要松弛
不同类问题:问“旅游建议”和问“人生建议”,期待的标准完全不同
痛点B:新用户泛化差(冷启动)
当面对缺乏历史数据的新用户时,现有模型往往难以及时适配其偏好,陷入"冷启动"困境。
P-GenRM 的创新,在于不再直接输出一个黑箱分数,而是生成一条结构化的“评分链”。这就好比一位会制定“个性化阅卷细则”的阅卷老师:
先写:这位同学在这个场景下更在意什么(persona + 偏好分析)
再写:评分 rubric(每条标准的权重)
最后:逐条对候选回答打分,汇总成总分
概念上,它的输出分为三个部分:
Persona / 偏好画像:这位用户在当前场景更像谁?更在意什么?
Rubric / 评分细则:例如“准确性 0.35、结构 0.25、语气亲和 0.20、创意 0.20”
逐条评分 + 总分:每条标准下给理由与分数(可解释)
这带来一个直接好处:偏好不再是模型里“黑箱的一团向量”,而是可读、可调、可审计的评分过程。
为了让模型真的学会这套“先立规矩再评分”的能力,我们用了三阶段训练框架:
通过有监督微调(SFT)训练模型将用户的显式偏好(如直接说明“我喜欢简洁回答”)和隐式偏好(如对话历史中体现的风格倾向)转化为完整的评分链。这一阶段让模型学会从多样的偏好信号中总结出用户在特定情境下的偏好画像和相应的评分标准。
真实场景中,用户往往不会明确说出所有偏好。为此,我们引入强化学习进一步提升模型生成评分链的能力。当用户偏好信息不完整(例如缺少显式偏好信息)时,模型依然需要"脑补"出合理的评判标准。通过 RL 训练,P-GenRM 学会在信息不全的情况下也能进行稳健的偏好推理,补全评分链,保证评分过程的连续性和合理性。
我们引入一种"由易到难"的课程学习策略,让模型接触更大比例的具有挑战性的样本,逐步提高其对难负样本的判断准确度。
经过以上三步“特训”,P-GenRM 就炼成了一名既懂行又懂你的 AI 评分官。它能将繁杂多样的用户偏好转化为结构化的评分链来评估模型回答,实现对不同场景下用户需求的动态适配。
即便训练得再好,个性化推理仍面临天然噪声:历史对话可能误导判断、当前场景信号可能不足、新用户样本可能太少。
为此,P-GenRM 在推理阶段引入了测试时用户扩展机制(Test-time User-based Scaling),通过“多想几遍”和“参考相似的人”两层策略来提升稳定性。
对同一个用户,模型会多采样几次评分链再汇总投票——通过多次生成不同的评分细则,再综合决策,有效降低单次生成带来的偶然偏差。
我们离线将大量用户偏好聚类成若干用户原型(User Prototypes)。推理时:先判断当前用户最像哪个原型,再挑选若干相似用户的偏好信号,额外生成一组"参考评分",与个体层结果融合。
这样会带来两大收益:
降噪:相似人群提供的"偏好先验"不容易被单次历史误导。
冷启动更强:新用户也能通过"相似用户"获得可用的个性化标准。
我们在权威基准 PersonalRewardBench(由 Chatbot Arena-personalized 与 PRISM-personalized 组成)上进行了系统评估,核心成果可以概括为三点:
P-GenRM(8B)全面超越现有方法,平均带来约 2.3% 的提升。
更关键的是,仅用 8B 模型就能超过此前最强的 70B 基线模型。这意味着:通过更聪明的架构设计,小模型也能在个性化任务上实现"越级挑战"。
在引入 individual + prototype 的双层扩展后,准确率可额外提升约 3%(例如 Ind-16 + Pro-8 的设置能把准确率进一步推高)。更关键的是,在更少扩展次数下,就能超过“只靠个体扩展、扩得更多”的效果。
这说明“参考相似用户”不单是堆算力,而是在引入有效的信息增量。
我们用 P-GenRM 训练 Policy 模型,验证其在下游任务中的实际价值:
8B policy +P-GenRM 在DPO/GRPO 等设置下,能取得统计显著的个性化对齐收益。
甚至在某些对比里,8B policy + P-GenRM 的效果可以超过 70B 模型。
这意味着:P-GenRM 不只是“评委”,还能当“好教练”。
此外,我们也补充了更多稳健性证据:
少量历史样本也可工作(少至几条历史互动也能保持稳定表现)
对小群体更公平:用 macro-accuracy 等指标评估时仍表现突出,避免只迎合主流偏好
推理效率:在对比中,P-GenRM 在更高准确率下仍保持较低延迟,并且扩展带来的额外耗时相对可控
真正的个性化,不是"换个语气""记住昵称"的表层定制,而是在开放式问题中,稳定给出"对这个人、在这个场景下更合适"的答案。
P-GenRM 的核心价值,是把个性化对齐做成了一套可解释、可泛化的流程:
先明确标准:从偏好信号中推断 persona,并生成带权重的评分 rubric
再依据标准逐条评判:输出可解释、可审计的评分过程,而不是黑箱打分
不确定就多做几次推理:在个体层进行多次采样与聚合,降低偶然偏差
新用户也能借鉴相似经验:在原型层引入相似用户偏好,增强冷启动泛化
这套机制让个性化技术更有机会落地到客服、教育、内容创作等真实场景中,系统不必“一次性猜对偏好”,而是用结构化评估链把不确定性拆解、吸收、压低。
更重要的是,P-GenRM 展示了生成式奖励模型在个性化对齐上的潜力:把多元偏好信号转化为结构化、可解释的评分链,并通过测试时用户扩展提升稳定性与泛化能力。这不仅带来了更准确的个性化奖励信号,也为构建真正“懂你、且能解释自己为何这么做”的 AI 系统迈出了一步。
💬 今日互动
你觉得个性化 AI 最大的挑战是什么?是准确理解用户偏好,还是在不同场景间灵活切换?欢迎在评论区聊聊你的看法(随机掉落定制周边)
推荐阅读
imageFun-CineForge:首个影视级配音多模态大模型
一句话即可自由生成!语音双模型上线
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み