#強化学習 (rl) のAIニュース

8件の記事

DeepReinforce が Ornith-1.0 を公開:自律的に RL スキャフォールドを学習するオープンソースコーディングモデルファミリー

DeepReinforce は、自律的に強化学習の枠組みを学習できる「Ornith-1.0」というオープンソースのコーディングモデルファミリーを発表した。このモデルは 9B から 397B の 4 サイズで構成され、Gemma 4 や Qwen 3.5 をベースに後方学習されている。

MarkTechPost·6月26日·★★★★

Import AI 460:報酬ハッキング社会、Anthropic の RSI データ、RL による四旋翼ドローンレース

Jack Clark が執筆するニュースレター「Import AI」第 460 号では、サイバー空間と同様に社会も報酬ハッキングの対象となり得る点や、Anthropic から提供された RSI データ、強化学習を用いた四旋翼ドローンレースの最新動向について解説しています。

Import AI·6月8日·★★★★

オープンソースコミュニティがエージェント型強化学習「OpenEnv」を支援

Hugging Face のブログによると、オープンソースコミュニティがエージェント型強化学習のためのプラットフォーム「OpenEnv」の発展を支援している。

Hugging Face Blog·6月8日·★★★★

低品質な強化学習環境の提供を止める方法(事例付き)

ジェミニで強化学習を担当したオーリエル・W氏が、大手ラボが抱える課題としてデータ品質の重要性やドメイン専門家の欠如などを指摘し、高品質な学習環境の構築方法を解説している。

Latent Space·6月6日·★★★★

エージェント型強化学習:トークンの入力と出力を正しく扱う方法(16 分読了)

TLDR AI は、大規模言語モデルを用いた強化学習において、サンプリングされたトークンを再トークン化するとドリフトが生じるリスクがあるため、デコード後のトークンを再エンコードせずバッファを維持する手法の重要性を解説している。

TLDR AI·6月1日·★★★★

強化学習データにおける高品質な QC の重要性

記事は、最先端研究所にデータを販売するベンダーに対し、パフォーマンス・コスト・遅延のトレードオフ曲線に基づいた厳格な品質管理基準の標準化を求めている。この基準を満たさないベンダーは今年内に問題に直面すると警告している。

TLDR AI·5月8日·★★★★

vLLM V0 から V1 へ:RL における修正前の正しさの重要性(8 分読了)

vLLM は V1 アップデートにより、ログ確率計算や重み更新の不整合を解消し、V0 と同等の推論精度と RL パフォーマンスを確保した。

TLDR AI·5月7日·★★★★

QwQ-32B:強化学習の力を活かす

QwenチームはQwQ-32Bにおいて強化学習の規模拡大を検証し、従来の学習段階を超えた推論性能の向上を目指す研究を発表した。

Qwen Blog·3月6日·★★★★