1件の記事
DeepReinforce は、自律的に強化学習の枠組みを学習できる「Ornith-1.0」というオープンソースのコーディングモデルファミリーを発表した。このモデルは 9B から 397B の 4 サイズで構成され、Gemma 4 や Qwen 3.5 をベースに後方学習されている。