Nous ResearchのNousCoder-14B、オープンソースのコーディングモデルがClaude Codeの瞬間に着地
暗号資産ベンチャーキャピタルのパラダイムが支援する Nous Research が、Claude Code の台頭に対抗し、48 個の最新 GPU でわずか 4 日間訓練したオープンソースコーディングモデル「NousCoder-14B」を公開し、その完全な学習環境と評価スイートも共有した。
キーポイント
Claude Code への対抗馬としての登場
Anthropic の Claude Code が社会現象となっているタイミングで、NousCoder-14B がリリースされ、オープンソース界隈における強力な代替案として注目されている。
驚異的な学習効率と性能
Alibaba の Qwen3-14B をベースに、Nvidia B200 48 基を 4 日間使用して訓練され、LiveCodeBench v6 で 67.87% の精度を達成し、競合する大規模プロプライエタリモデルと互角以上の性能を示した。
完全な再現可能性の提供
単にモデル重みだけでなく、Atropos フレームワークに基づく強化学習環境やベンチマークスイート、トレーニングハッチも公開し、研究者が誰でも結果を再現・拡張できる環境を整備した。
学習効率の比較
モデルは約4日間で人間が2年間かけて達成したレベルに達したが、学習に必要なサンプル数は人間の1000件に対し2万4千件と、現時点では人間の方が圧倒的にサンプル効率的である。
検証可能な報酬による強化学習
生成されたコードを実行環境でテストケースに照らして正誤を判定するバイナリ信号(Verifiable Rewards)を用いた強化学習により、時間・メモリ制約内での実行成功を学習している。
動的サンプリングと文脈拡張
学習に有用な勾配を提供しない「全試行で成功または失敗」する例を除外する動的サンプリング(DAPO)を採用し、評価時には8万トークンまでコンテキストウィンドウを拡張することで67.87%の精度を達成した。
トレーニングパイプラインの最適化
モデルが解決策を生成すると同時に次の問題に取り掛かる並行処理と、非同期トレーニングにより高価なGPUクラスターの利用率を最大化しています。
影響分析・編集コメントを表示
影響分析
この発表は、AI コーディングツールの競争が単なる性能比拼から、学習プロセスの透明性とコミュニティによるイノベーションへとシフトしていることを示唆しています。特に、大規模な計算資源を短期間で集中投入して高品質なモデルを生成できる手法と、そのプロセスを完全にオープン化することで業界全体の標準を押し上げる姿勢は、開発者コミュニティに大きな影響を与えるでしょう。
編集コメント
Claude Code の台頭という文脈で、オープンソース界がどう応戦するかを示す象徴的な事例です。特に「学習環境の完全公開」という点は、単なるモデルの性能比較を超え、AI 開発の民主化に向けた重要な一歩と言えます。
クレジット: VentureBeat(Midjourneyで作成)
暗号系ベンチャーファームParadigmが支援するオープンソース人工知能スタートアップのNous Researchは月曜日、わずか4日間でNvidiaの最新B200グラフィックスプロセッサ48台を使用して訓練され、いくつかの大規模な独自システムに匹敵または凌駕する性能を持つ新しい競技プログラミングモデルをリリースした。
NousCoder-14Bと名付けられたこのモデルは、AIコーディングアシスタントという混戦市場への新たな参入品だが、特に緊迫した瞬間に登場した。ライバル企業Anthropicのエージェント型プログラミングツール「Claude Code」が元旦以来ソーシャルメディアの議論を支配し、開発者たちがその能力について息もつかせぬ証言を投稿している。これらの同時進行する発展は、AI支援によるソフトウェア開発がいかに急速に進化しているか、そして大小さまざまな企業が、ソフトウェアの書き方における基盤技術になると多くの人が信じる領域を獲得しようと、いかに熾烈に競争しているかを浮き彫りにしている。
NousCoder-14Bは、2024年8月から2025年5月の間に公開された競技プログラミング問題でモデルをテストする標準化された評価「LiveCodeBench v6」において、67.87%の正答率を達成した。この数値は、訓練の基となったAlibabaのQwen3-14Bベースモデルと比べて7.08ポイントの改善を表しており、リリースと同時に公開されたNous Researchの技術報告書に記載されている。
「私はClaude Codeに問題の説明を与えたところ、昨年私たちが構築したものを1時間で生成しました」と、Gemini APIを担当するGoogleのプリンシパルエンジニア、Jaana Doganが先週、XでAIコーディングツールを巡る支配的なムードを捉えたバイラル投稿に書いた。Doganは、彼女のチームが1年かけて開発した分散エージェントオーケストレーションシステムについて説明しており、Claude Codeは3段落のプロンプトからそのシステムを近似したのである。
この対比は示唆に富む。AnthropicのClaude Codeがエンドツーエンドのソフトウェア開発のデモンストレーションで人々の想像力を掴んでいる一方で、Nous Researchは、検証可能な問題で訓練されたオープンソースの代替品がその差を埋められると賭けている。そして、これらのモデルがどのように構築されるかという透明性は、生の能力と同じくらい重要であると考えているのだ。
Nous Researchが誰でも再現できるAIコーディングモデルを構築した方法
NousCoder-14Bのリリースを多くの競合他社の発表と区別するのは、その根本的なオープン性である。Nous Researchはモデルの重みだけでなく、完全な強化学習環境、ベンチマークスイート、そして同社のAtroposフレームワーク上に構築されたトレーニングハーネスも公開した。これにより、十分な計算資源を持つあらゆる研究者がこの作業を再現または拡張することが可能になった。
「Atroposスタックをオープンソース化することは、再現可能なオリンピアードレベルの推論研究に必要なインフラを提供します」と、Xで一人の観察者が学術界およびオープンソースコミュニティにとっての重要性を要約して指摘した。
このモデルは、Nous Researchの常駐研究者で、自身も元競技プログラマーであるJoe Liによって訓練された。Liの技術報告書は、予想外に個人的な側面を明らかにしている。彼はモデルの改善軌跡を、自身のCodeforces(参加者がコンテストの成績に基づいてレーティングを獲得する競技プログラミングプラットフォーム)での歩みと比較したのだ。
LiveCodeBenchのスコアをCodeforcesのレーティングに大まかにマッピングした推定に基づき、LiはNousCoder-14Bの改善(おおよそレーティング1600-1750の範囲から2100-2200へ)が、彼自身が14歳から16歳までの約2年間の持続的な練習を要した飛躍を映し出していると計算した。モデルはそれと同等のことを4日で達成したのである。
「その最終的なトレーニング実行が展開されるのを見るのは、かなりシュールな経験でした」とLiは技術報告書に記した。
しかし、LiはAIの効率性に関するより広範な疑問に言及する重要な注意点をすぐに指摘した。彼はその2年間で約1,000問の問題を解いたが、モデルには24,000問が必要だった。人間は、少なくとも今のところ、劇的にサンプル効率の良い学習者なのである。
24,000問の競技プログラミング問題で訓練する強化学習システムの内側
NousCoder-14Bのトレーニングプロセスは、研究者が強化学習を通じてAIの推論能力を向上させるために使用する、ますます洗練された技術を垣間見せる窓となっている。
このアプローチは、研究者が「検証可能な報酬」と呼ぶものに依存している。これは、モデルがコードソリューションを生成し、それらのソリューションがテストケースに対して実行され、モデルが単純な二値信号(正解か不正解か)を受け取るシステムである。このフィードバックループは、概念的には単純明快だが、大規模に実行するには重要なインフラを必要とする。
Nous Researchは、クラウドコンピューティングプラットフォームのModalを使用して、サンドボックス化されたコード実行を並列で行った。24,000問のトレーニング問題のそれぞれには平均して数百のテストケースが含まれており、システムは生成されたコードが時間(15秒)とメモリ(4ギガバイト)の制約内で正しい出力を生成することを検証しなければならない。
トレーニングにはDAPO(Dynamic Sampling Policy Optimization)と呼ばれる技術が採用され、研究者は実験においてこれが代替案よりわずかに優れた性能を示すことを発見した。重要な革新には「動的サンプリング」が含まれる。これは、モデルがすべての試行を解決するか、あるいはすべての試行に失敗するトレーニング例を破棄するもので、これらは学習に有用な勾配信号を提供しないためである。
研究者らはまた「反復的コンテキスト拡張」を採用し、まず32,000トークンのコンテキストウィンドウでモデルを訓練した後、40,000トークンに拡張した。評価中に、コンテキストをさらに約80,000トークンに拡張すると最高の結果が得られ、正答率は67.87%に達した。
おそらく最も重要なのは、トレーニングパイプラインが推論と検証をオーバーラップさせている点である。モデルがソリューションを生成するとすぐに、前のソリューションがチェックされている間に次の問題に取り組み始める。このパイプライン処理は、複数のモデルインスタンスが並列で動作する非同期トレーニングと組み合わさり、高価なGPUクラスター上のハードウェア使用率を最大化する。
AIコーディングモデルの進歩を遅らせる可能性のある迫り来るデータ不足
Liの技術報告書に埋もれている、AI開発の未来に重要な示唆を持つ発見がある。NousCoder-14Bのトレーニングデータセットは、「標準化されたデータセット形式で容易に利用可能な、検証可能な競技プログラミング問題の大部分を含んでいる」というものだ。
言い換えれば、この特定の領域において、研究者は高品質なトレーニングデータの限界に近づいているのである。
「インターネット上の競技プログラミング問題の総数は、ほぼ同じ桁のオーダーです」とLiは、トレーニングに使用された24,000問の問題について記した。「これは、競技プログラミング領域内では、我々は高品質なデータの限界に近づいていることを示唆しています」
この観察は、AI業界全体で高まっているデータ制約に関する懸念を反映している。計算資源はよく理解された経済的・工学的原則に従ってスケールし続けているが、トレーニングデータはLiが述べたように「ますます有限」なのである。
「将来必要とされる最も重要な研究の一部は、合成データ生成と、データ効率の良いアルゴリズムおよびアーキテクチャの領域で行われることになるようです」と彼は結論付けた。
この課題は競技プログラミングにおいて特に深刻である。なぜなら、この領域は自動的に検証可能な既知の正解を持つ問題を必要とするからだ。人間による評価や代理指標で済む自然言語タスクとは異なり、コードは動作するかしないかのどちらかであるため、合成データ生成はかなり難しくなる。
Liは一つの潜在的な道筋を特定した。それは、モデルに問題を解くことだけでなく、解ける問題を生成するように訓練することであり、ゲームプレイAIシステムで成功を収めた技術と同様の自己対戦の形式を可能にするものだ。「合成問題生成が解決されれば、自己対戦は非常に興味深い方向性になります」と彼は記した。
オープンソースAIがビッグテックと競争できるという6,500万ドルの賭け
Nous ResearchはAIの景観において独特な地位を確立してきた。それは、独自の代替品と競争し、時にはそれを凌駕するオープンソースリリースに取り組む企業という立場である。
原文を表示
Credit: VentureBeat made with Midjourney
Nous Research, the open-source artificial intelligence startup backed by crypto venture firm Paradigm, released a new competitive programming model on Monday that it says matches or exceeds several larger proprietary systems — trained in just four days using 48 of Nvidia's latest B200 graphics processors.
The model, called NousCoder-14B, is another entry in a crowded field of AI coding assistants, but arrives at a particularly charged moment: Claude Code, the agentic programming tool from rival Anthropic, has dominated social media discussion since New Year's Day, with developers posting breathless testimonials about its capabilities. The simultaneous developments underscore how quickly AI-assisted software development is evolving — and how fiercely companies large and small are competing to capture what many believe will become a foundational technology for how software gets written.
NousCoder-14B achieves a 67.87 percent accuracy rate on LiveCodeBench v6, a standardized evaluation that tests models on competitive programming problems published between August 2024 and May 2025. That figure represents a 7.08 percentage point improvement over the base model it was trained from, Alibaba's Qwen3-14B, according to Nous Research's technical report published alongside the release.
"I gave Claude Code a description of the problem, it generated what we built last year in an hour," wrote Jaana Dogan, a principal engineer at Google responsible for the Gemini API, in a viral post on X last week that captured the prevailing mood around AI coding tools. Dogan was describing a distributed agent orchestration system her team had spent a year developing — a system Claude Code approximated from a three-paragraph prompt.
The juxtaposition is instructive: while Anthropic's Claude Code has captured imaginations with demonstrations of end-to-end software development, Nous Research is betting that open-source alternatives trained on verifiable problems can close the gap — and that transparency in how these models are built matters as much as raw capability.
How Nous Research built an AI coding model that anyone can replicate
What distinguishes the NousCoder-14B release from many competitor announcements is its radical openness. Nous Research published not just the model weights but the complete reinforcement learning environment, benchmark suite, and training harness — built on the company's Atropos framework — enabling any researcher with sufficient compute to reproduce or extend the work.
"Open-sourcing the Atropos stack provides the necessary infrastructure for reproducible olympiad-level reasoning research," noted one observer on X, summarizing the significance for the academic and open-source communities.
The model was trained by Joe Li, a researcher in residence at Nous Research and a former competitive programmer himself. Li's technical report reveals an unexpectedly personal dimension: he compared the model's improvement trajectory to his own journey on Codeforces, the competitive programming platform where participants earn ratings based on contest performance.
Based on rough estimates mapping LiveCodeBench scores to Codeforces ratings, Li calculated that NousCoder-14B's improvemen t— from approximately the 1600-1750 rating range to 2100-2200 — mirrors a leap that took him nearly two years of sustained practice between ages 14 and 16. The model accomplished the equivalent in four days.
"Watching that final training run unfold was quite a surreal experience," Li wrote in the technical report.
But Li was quick to note an important caveat that speaks to broader questions about AI efficiency: he solved roughly 1,000 problems during those two years, while the model required 24,000. Humans, at least for now, remain dramatically more sample-efficient learners.
Inside the reinforcement learning system that trains on 24,000 competitive programming problems
NousCoder-14B's training process offers a window into the increasingly sophisticated techniques researchers use to improve AI reasoning capabilities through reinforcement learning.
The approach relies on what researchers call "verifiable rewards" — a system where the model generates code solutions, those solutions are executed against test cases, and the model receives a simple binary signal: correct or incorrect. This feedback loop, while conceptually straightforward, requires significant infrastructure to execute at scale.
Nous Research used Modal, a cloud computing platform, to run sandboxed code execution in parallel. Each of the 24,000 training problems contains hundreds of test cases on average, and the system must verify that generated code produces correct outputs within time and memory constraints — 15 seconds and 4 gigabytes, respectively.
The training employed a technique called DAPO (Dynamic Sampling Policy Optimization), which the researchers found performed slightly better than alternatives in their experiments. A key innovation involves "dynamic sampling" — discarding training examples where the model either solves all attempts or fails all attempts, since these provide no useful gradient signal for learning.
The researchers also adopted "iterative context extension," first training the model with a 32,000-token context window before expanding to 40,000 tokens. During evaluation, extending the context further to approximately 80,000 tokens produced the best results, with accuracy reaching 67.87 percent.
Perhaps most significantly, the training pipeline overlaps inference and verification — as soon as the model generates a solution, it begins work on the next problem while the previous solution is being checked. This pipelining, combined with asynchronous training where multiple model instances work in parallel, maximizes hardware utilization on expensive GPU clusters.
The looming data shortage that could slow AI coding model progress
Buried in Li's technical report is a finding with significant implications for the future of AI development: the training dataset for NousCoder-14B encompasses "a significant portion of all readily available, verifiable competitive programming problems in a standardized dataset format."
In other words, for this particular domain, the researchers are approaching the limits of high-quality training data.
"The total number of competitive programming problems on the Internet is roughly the same order of magnitude," Li wrote, referring to the 24,000 problems used for training. "This suggests that within the competitive programming domain, we have approached the limits of high-quality data."
This observation echoes growing concern across the AI industry about data constraints. While compute continues to scale according to well-understood economic and engineering principles, training data is "increasingly finite," as Li put it.
"It appears that some of the most important research that needs to be done in the future will be in the areas of synthetic data generation and data efficient algorithms and architectures," he concluded.
The challenge is particularly acute for competitive programming because the domain requires problems with known correct solutions that can be verified automatically. Unlike natural language tasks where human evaluation or proxy metrics suffice, code either works or it doesn't — making synthetic data generation considerably more difficult.
Li identified one potential avenue: training models not just to solve problems but to generate solvable problems, enabling a form of self-play similar to techniques that proved successful in game-playing AI systems. "Once synthetic problem generation is solved, self-play becomes a very interesting direction," he wrote.
A $65 million bet that open-source AI can compete with Big Tech
Nous Research has carved out a distinctive position in the AI landscape: a company committed to open-source releases that compete with — and sometimes exceed — proprietary alternatives.
The company raised $50 million in April 2025 in a round led by Paradigm, the cryptocurrency-focused venture firm founded by Coinbase co-founder Fred Ehrsam. Total funding reached $65 million, according to some reports. The investment reflected growing interest in decentralized approaches to AI training, an area where Nous Research has developed its Psyche platform.
Previous releases include Hermes 4, a family of models that we reported "outperform ChatGPT without content restrictions," and DeepHermes-3, which the company described as the first "toggle-on reasoning model" — allowing users to activate extended thinking capabilities on demand.
The company has cultivated a distinctive aesthetic and community, prompting some skepticism about whether style might overshadow substance. "Ofc i'm gonna believe an anime pfp company. stop benchmarkmaxxing ffs," wrote one critic on X, referring to Nous Research's anime-style branding and the industry practice of optimizing for benchmark performance.
Others raised technical questions. "Based on the benchmark, Nemotron is better," noted one commenter, referring to Nvidia's family of language models. Another asked whether NousCoder-14B is "agentic focused or just 'one shot' coding" — a distinction that matters for practical software development, where iterating on feedback typically produces better results than single attempts.
What researchers say must happen next for AI coding tools to keep improving
The release includes several directions for future work that hint at where AI coding research may be heading.
Multi-turn reinforcement learning tops the list. Currently, the model receives only a final binary reward — pass or fail — after generating a solution. But competitive programming problems typically include public test cases that provide intermediate feedback: compilation errors, incorrect outputs, time limit violations. Training models to incorporate this feedback across multiple attempts could significantly improve performance.
Controlling response length also remains a challenge. The researchers found that incorrect solutions tended to be longer than correct ones, and response lengths quickly saturated available context windows during training — a pattern that various algorithmic modifications failed to resolve.
Perhaps most ambitiously, Li proposed "problem generation and self-play" — training models to both solve and create programming problems. This would address the data scarcity problem directly by enabling models to generate their own training curricula.
"Humans are great at generating interesting and useful problems for other competitive programmers, but it appears that there still exists a significant gap in LLM capabilities in creative problem generation," Li wrote.
The model is available now on Hugging Face under an Apache 2.0 license. For researchers and developers who want to build on the work, Nous Research has published the complete Atropos training stack alongside it.
What took Li two years of adolescent dedication to achieve—climbing from a 1600-level novice to a 2100-rated competitor on Codeforces—an AI replicated in 96 hours. He needed 1,000 problems. The model needed 24,000. But soon enough, these systems may learn to write their own problems, teach themselves, and leave human benchmarks behind entirely.
The question is no longer whether machines can learn to code. It's whether they'll soon be better teachers than we ever were.

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み