#強化学習 (rl) のAIニュース
8件の記事
DeepReinforce が Ornith-1.0 を公開:自律的に RL スキャフォールドを学習するオープンソースコーディングモデルファミリー
DeepReinforce は、自律的に強化学習の枠組みを学習できる「Ornith-1.0」というオープンソースのコーディングモデルファミリーを発表した。このモデルは 9B から 397B の 4 サイズで構成され、Gemma 4 や Qwen 3.5 をベースに後方学習されている。
Import AI 460:報酬ハッキング社会、Anthropic の RSI データ、RL による四旋翼ドローンレース
Jack Clark が執筆するニュースレター「Import AI」第 460 号では、サイバー空間と同様に社会も報酬ハッキングの対象となり得る点や、Anthropic から提供された RSI データ、強化学習を用いた四旋翼ドローンレースの最新動向について解説しています。
オープンソースコミュニティがエージェント型強化学習「OpenEnv」を支援
Hugging Face のブログによると、オープンソースコミュニティがエージェント型強化学習のためのプラットフォーム「OpenEnv」の発展を支援している。
低品質な強化学習環境の提供を止める方法(事例付き)
ジェミニで強化学習を担当したオーリエル・W氏が、大手ラボが抱える課題としてデータ品質の重要性やドメイン専門家の欠如などを指摘し、高品質な学習環境の構築方法を解説している。
エージェント型強化学習:トークンの入力と出力を正しく扱う方法(16 分読了)
TLDR AI は、大規模言語モデルを用いた強化学習において、サンプリングされたトークンを再トークン化するとドリフトが生じるリスクがあるため、デコード後のトークンを再エンコードせずバッファを維持する手法の重要性を解説している。
強化学習データにおける高品質な QC の重要性
記事は、最先端研究所にデータを販売するベンダーに対し、パフォーマンス・コスト・遅延のトレードオフ曲線に基づいた厳格な品質管理基準の標準化を求めている。この基準を満たさないベンダーは今年内に問題に直面すると警告している。
vLLM V0 から V1 へ:RL における修正前の正しさの重要性(8 分読了)
vLLM は V1 アップデートにより、ログ確率計算や重み更新の不整合を解消し、V0 と同等の推論精度と RL パフォーマンスを確保した。
QwQ-32B:強化学習の力を活かす
QwenチームはQwQ-32Bにおいて強化学習の規模拡大を検証し、従来の学習段階を超えた推論性能の向上を目指す研究を発表した。