#推論 (reasoning) のAIニュース

1件の記事

DeepReinforce が Ornith-1.0 を公開：自律的に RL スキャフォールドを学習するオープンソースコーディングモデルファミリー

DeepReinforce は、自律的に強化学習の枠組みを学習できる「Ornith-1.0」というオープンソースのコーディングモデルファミリーを発表した。このモデルは 9B から 397B の 4 サイズで構成され、Gemma 4 や Qwen 3.5 をベースに後方学習されている。