#強化学習 (rl) のAIニュース

8件の記事

DeepReinforce が Ornith-1.0 を公開：自律的に RL スキャフォールドを学習するオープンソースコーディングモデルファミリー

DeepReinforce は、自律的に強化学習の枠組みを学習できる「Ornith-1.0」というオープンソースのコーディングモデルファミリーを発表した。このモデルは 9B から 397B の 4 サイズで構成され、Gemma 4 や Qwen 3.5 をベースに後方学習されている。

Jack Clark が執筆するニュースレター「Import AI」第 460 号では、サイバー空間と同様に社会も報酬ハッキングの対象となり得る点や、Anthropic から提供された RSI データ、強化学習を用いた四旋翼ドローンレースの最新動向について解説しています。

Hugging Face のブログによると、オープンソースコミュニティがエージェント型強化学習のためのプラットフォーム「OpenEnv」の発展を支援している。

ジェミニで強化学習を担当したオーリエル・W氏が、大手ラボが抱える課題としてデータ品質の重要性やドメイン専門家の欠如などを指摘し、高品質な学習環境の構築方法を解説している。

TLDR AI は、大規模言語モデルを用いた強化学習において、サンプリングされたトークンを再トークン化するとドリフトが生じるリスクがあるため、デコード後のトークンを再エンコードせずバッファを維持する手法の重要性を解説している。

記事は、最先端研究所にデータを販売するベンダーに対し、パフォーマンス・コスト・遅延のトレードオフ曲線に基づいた厳格な品質管理基準の標準化を求めている。この基準を満たさないベンダーは今年内に問題に直面すると警告している。

vLLM は V1 アップデートにより、ログ確率計算や重み更新の不整合を解消し、V0 と同等の推論精度と RL パフォーマンスを確保した。

QwenチームはQwQ-32Bにおいて強化学習の規模拡大を検証し、従来の学習段階を超えた推論性能の向上を目指す研究を発表した。