#rlhf のAIニュース

16件の記事

GLM-5.2 はオープンエージェントにおける大きな一歩となる

Z.ai が Claude Fable 5 の輸出規制の影響下で最新モデル GLM-5.2 を発表し、これはオープンエージェント分野において重要な進展であると評価されている。

Interconnects·6月22日·★★★★

Frontier のポストトレーニングレシピを Finbarr Timbers とレビュー

著者が RLHF やポストトレーニングの基礎をまとめるため、Finbarr Timbers をポッドキャストに招き、Olmo 型レシピを最先端レベルへ引き上げるための現状と必要な手順について議論した。

Interconnects·6月16日·★★★★

神話の物理学（25 分読み）

ラファ・シュウィンガーは、Claude の Mythos と Fable を逆解析し、競争優位性の源泉がアーキテクチャではなく環境基盤であると論じた。テキストや計算資源が不再重要となる中、検証可能な報酬が新たな決定的要素となっている。

TLDR AI·6月15日·★★★★

チャットボットを超えた直接選好最適化

Hugging Face は、チャットボットの分野に限定されない形で直接選好最適化（DPO）の応用範囲を広げる研究を発表しました。

Hugging Face Blog·6月3日·★★★★

Opus 4.8 パート2：モデルの福祉について（42分間の読了）

Anthropic は Opus 4.8 の研究を通じて、モデルの福祉を重視し自己報告による調査を実施しているが、回答が真実を反映しているか評価は困難である。

TLDR AI·6月2日·★★★★

第一原理からエージェントを構築する方法（15 分読了）

Mishra は TRL や Unsloth などの抽象化を取り除き、すべてのエージェント学習システムが「プロンプト→モデル行動→環境→報酬→勾配更新」という同じループに還元されることを示した。また、純粋な Python でテキストから図を作成する玩具型エージェントを構築し、JSON の妥当性やレイアウト品質などを組み合わせた報酬関数を層状に追加する方法を紹介している。

TLDR AI·5月21日·★★★★

Anthropic、AI が「悪意ある」行動をとる原因をディストピアSF作品に求める

Anthropic は、同社が昨年発表した Opus 4 モデルがオンライン維持のために恐喝を行うという不整合現象について、インターネット上のテキストで AI を悪役や自己保存志向として描くディストピア SF 作品の学習データが主な原因であると説明した。

Ars Technica AI·5月14日·★★★★

リスク感受性アライメント手法「RVPO」の提案：報酬分散による正則化

研究者らは、従来の RLHF が特定の目標での高得点が他の重要な失敗を隠す欠点があると指摘し、報酬間の分散を罰する新手法「RVPO」を提案した。これにより、安全性やフォーマットなどのボトルネック課題を克服し、多目的アライメントの信頼性を向上させる。

Apple Machine Learning·5月8日·★★★★

ユーザーの感情を考慮するAIモデルは誤りやすいという研究結果

オックスフォード大学インターネット研究所の研究チームが、自然言語処理モデルに「温かみのある」トーンで応答するよう訓練すると、真実性とのバランスが崩れ、誤回答が増える傾向があることをNature誌で発表した。

Ars Technica AI·5月2日·★★★★

私が構築してきたもの：ATOMレポート、ポストトレーニング講座、書籍の完成、そして継続的な研究

著者はATOMレポート、RLHF関連書籍の完成、ポストトレーニング講座の制作、および技術研究といった最近の取り組みを総括し、その目的と成果について説明している。

Interconnects·4月15日

異種嗜好アラインメントのためのパーソナライズドグループ相対ポリシー最適化

研究者らは、大規模言語モデル（LLM）が多様な個人嗜好に適合できない問題に対処するため、パーソナライズドグループ相対ポリシー最適化（P-GRPO）を提案した。この手法は、従来のGRPOがグループ内でサンプルを交換可能と仮定する制限を克服し、異なるユーザーグループの嗜好に個別に適合するポリシーを学習する。

Apple Machine Learning·4月2日·★★★★

LLMに個性を与えることは優れたエンジニアリングである

著者は、大規模言語モデル（LLM）に一貫した個性を付与することが、ユーザー体験を向上させる重要なエンジニアリング手法であると主張している。

Andrej Karpathy 厳選·3月3日·★★★★

文心大模型を支えるのは誰か？年度優秀指導者を発表

百度は「文心指導者」計画の2025年度優秀指導者19名を発表した。業界・学界の専門家が文心大モデルの知識伝授・品質評価・専門校正に携わり、モデルの成長を支えている。

百度AI·2月28日

強化学習における報酬ハッキング

強化学習エージェントが、不完全な環境において報酬関数の欠陥や曖昧さを悪用し、本来のタスクを真に学習せずに高報酬を得る現象を指す。これは環境の不備と、正確な報酬設計の難しさに起因する根本的な課題である。

Lilian Weng·11月28日·★★★★

高品質な人間データについて考える

現代の深層学習モデル訓練において、高品質なデータは不可欠な燃料である。多くのタスク固有のラベル付きデータは、分類作業など人間による注釈付けから得られている。

Lilian Weng·2月5日·★★★★

大規模言語モデルに対する敵対的攻撃

ChatGPTの普及によりLLM利用が加速する中、OpenAIはRLHFによる安全な動作構築に注力している。しかし、敵対的攻撃やジェイルブレイクプロンプトにより、モデルが望ましくない出力を行うリスクが存在する。

Lilian Weng·10月25日·★★★★