コードコンセプト:プログラミング概念の種から生成された大規模合成データセット
NVIDIAの研究チームは、プログラミング概念の分類体系に基づいて大規模な合成データセットを生成する手法を開発し、LLMのコード生成能力をHumanEvalベンチマークで6ポイント向上させたことを発表した。
キーポイント
概念駆動型合成データ生成手法の開発
プログラミング知識の分類体系(タクソノミー)を構築し、特定の概念を組み合わせて大規模な合成データを生成するワークフローを確立した。
1500万のPythonプログラミング問題を含むデータセット
HumanEvalベンチマークに関連する91のコア概念に基づいて、約1500万の合成Pythonプログラミング問題を生成し、Nemotron-Pretraining-Code-Conceptsデータセットとして公開した。
LLMのコード生成能力の顕著な向上
生成したデータセットをNemotron-Nano-v3の事前学習に組み込むことで、HumanEvalベンチマークで6ポイントの性能向上を達成した。
データの質と特化性の重要性の強調
大規模LLM開発において、単なるデータ量だけでなく、特定のスキル(推論やプログラミング能力)を強化するための概念的にターゲットを絞ったデータの重要性を示した。
影響分析・編集コメントを表示
影響分析
この研究は、単にデータ量を増やすだけでなく、特定の能力を強化するために概念的に設計された合成データの重要性を示しており、今後のLLM開発におけるデータ戦略に大きな影響を与える可能性がある。特にコード生成分野では、ベンチマーク駆動ではなく、体系的なプログラミング知識に基づくデータ生成が新たな標準となる可能性を示唆している。
編集コメント
データの「量」から「質と特化性」へのパラダイムシフトを示す重要な研究。コード生成だけでなく、他の専門分野への応用も期待できる手法だ。
記事に戻る コードコンセプト: プログラミング概念のシードから生成された大規模合成データセット
アップボート - Joseph Jennings jojennin フォロー
nvidia
Brandon Norick nvda-bnorick フォロー
nvidia 大規模言語モデル(LLM)の開発において、モデル品質の向上はデータ量だけでなく、データの質と特定性にも依存します。事前学習データセットはしばしば膨大な範囲の情報を含みますが、推論やプログラミング習熟度といった特定のスキルを強化するために必要な概念的な焦点付けが欠けていることがあります。この課題に対処するため、我々はスケーラブルで概念駆動型の合成データ生成のための手法を設計しました。これは研究者が望むモデル能力に沿ったデータを生成できるワークフローです。最初の応用例として、我々は1500万のPythonプログラミング問題から成る事前学習規模の合成データセットを構築し、Nemotron-Pretraining-Specialized-v1.1データセットのNemotron-Pretraining-Code-Conceptsサブセットとして公開しました。これらのデータをNemotron-Nano-v3事前学習の最終1000億トークンに含めることで、HumanEvalベンチマークで6ポイントの向上が得られることを示します。
我々のワークフローは、Nemotron-Pretraining-Code-{v1,v2}データセットの大規模アノテーションから導出された、プログラミング知識の精選されたタクソノミー(分類体系)を中心としています。このタクソノミーは、基本的な構成要素(例:文字列、再帰)から高度なアルゴリズムやデータ構造パターンまで、階層的に整理された数千のプログラミング概念を符号化しています。このタクソノミーを用いることで、開発者は選択した概念の組み合わせと蒸留を通じて焦点を絞ったデータ生成を実行でき、実験者が生成データ全体の難易度、多様性、概念的バランスを制御できるようにします。
このワークフローを実際に評価するため、LLM事前学習における基礎的なPythonプログラミングスキルを強化することを目的とした大規模合成データセットを作成するためにこれを適用しました。まず、HumanEvalベンチマークのコード補完プロンプトを我々のタクソノミー内で分類することで、HumanEvalベンチマークに最も関連性が高く(それでも実践的なプログラミング知識を広く代表する)、91のコア概念を特定しました。これらの概念の組み合わせに基づき、約1500万の合成Pythonプログラミング問題を生成し、それぞれが実行可能なPythonコードで構成されていることを検証しました(Pythonの ast.parse を使用)。
図1: コードコンセプトデータセットを生成するために使用された概念駆動型データ生成。Nemotron-Pretraining-Code-{v1,v2}データセットから構築されたタクソノミーを用いて、HumanEvalプロンプトからプログラミング概念を抽出し、それらをオープンエンド生成に使用します。我々のワークフローは、91の異なるプログラミング概念から派生した約1500万のPythonプログラミング問題をもたらしました。
図2: 我々の概念駆動型データ生成ワークフローの一部としてのPythonプログラミング問題生成の視覚的表現。プロンプトは概念の組み合わせ(青枠内に含まれ、ドット表記で表現)、指示、およびいくつかの制約から構築されます。GPT-OSS 120Bを使用して問題が生成され、その後、構文解析され品質のためにフィルタリングされます。この特定の例では、概念の組み合わせ data-structures.sets.operation、algorithms.arrays.processing、algorithms.geometry.computational が使用されています。
これらの生成データを検証するため、コードコンセプトデータセットの100億トークンをNemotron Nano-v3事前学習の最終1000億トークンに含めました。学習と評価の後、結果として得られたモデルがHumanEval精度で73から79へ、6ポイントの改善をもたらすことがわかりました。図3は、Nemotron-Nano-v3とコードコンセプトデータセットで学習したNemotron-Nano-v3のベースモデル評価の比較を示しています。定量的な向上を超えて、定性的評価は、様々なプログラミング概念(例:グラフアルゴリズム、集合演算)にわたるより強力なパフォーマンスと、エッジケースおよび実行推論の改善された処理を明らかにしています。
我々はこのデータセットを、より広範な概念駆動型生成ワークフローの検証として捉えています。データセットと基盤となるタクソノミーの両方を寛容なオープンライセンス(CC-BY-4.0)の下で公開することで、コミュニティがこの手法を他の分野やユースケースに拡張し、スケーラブルで焦点を絞ったLLM事前学習に活用できることを期待しています。
図3: コードコンセプトデータの約100億トークンを使用して1000億トークンのデータ除去実験を実行した後に得られたベースモデルベンチマーク評価結果。コードコンセプトデータで学習したモデルはHumanEvalで6ポイントの向上を達成し、他のほとんどのベンチマークは変化しませんでした。
原文を表示
Back to Articles Code Concepts: A Large-Scale Synthetic Dataset Generated from Programming Concept Seeds
Upvote - Joseph Jennings jojennin Follow
nvidia
Brandon Norick nvda-bnorick Follow
nvidia In large-scale LLM development, improving model quality depends not only on data quantity but also on data quality and specificity. While pretraining datasets often contain a vast range of information, they can lack the conceptual targeting needed to strengthen particular skills, such as reasoning or programming proficiency. To address this challenge, we designed an approach for scalable, concept-driven synthetic data generation — a workflow that enables researchers to generate data aligned with desired model capabilities. As an initial application, we construct a pretraining-scale synthetic dataset consisting of 15 million Python programming problems, released as the Nemotron-Pretraining-Code-Concepts subset of the Nemotron-Pretraining-Specialized-v1.1 dataset. We show that including these data in the final 100 billion tokens of Nemotron-Nano-v3 pretraining yields a six-point gain on the HumanEval benchmark.
Our workflow centers on a curated taxonomy of programming knowledge derived from large-scale annotation of the Nemotron‑Pretraining‑Code‑{v1,v2} datasets. This taxonomy encodes thousands of programming concepts organized hierarchically, from fundamental constructs (e.g., strings, recursion) to advanced algorithmic and data-structure patterns. Using this taxonomy, developers can perform targeted data generation through the combination and distillation of selected concepts, enabling experimenters to control difficulty, diversity, and conceptual balance across generated data.
To evaluate this workflow in practice, we applied it to create a large-scale synthetic dataset aimed at enhancing foundational Python programming skills in LLM pretraining. We first identified 91 core concepts most relevant to the HumanEval benchmark (though still broadly representative of real programming knowledge) by classifying its code-completion prompts within our taxonomy. Guided by combinations of these concepts, we generated approximately 15 million synthetic Python programming problems, each of which was validated to consist of working Python code (using Python’s ast.parse
Figure 1: Concept-driven data generation used to generate the Code Concepts dataset. Using a taxonomy constructed from the Nemotron-Pretraining-Code-{v1,v2} datasets, we extract programming concepts from HumanEval prompts and use those for open-ended generation. Our workflow resulted in ~15M Python programming problems derived from 91 different programming concepts.
Figure 2: A visual representation of Python programming problem generation as part of our concept-driven data-generation workflow. A prompt is constructed from a combination of concepts (included in the blue box and represented using dot-notation), an instruction and some constraints. Using GPT-OSS 120B a problem is generated, then parsed and filtered for quality. For this particular example, the combination of the concepts data-structures.sets.operation
algorithms.arrays.processing
algorithms.geometry.computational
To validate these generated data, we included 10 billion tokens of the Code Concepts dataset into the final 100 billion tokens of Nemotron Nano‑v3 pretraining. After training and evaluation, we find that the resulting model yields a six‑point improvement in HumanEval accuracy, from 73 to 79. Figure 3 shows a comparison of base-model evaluations between Nemotron-Nano-v3 and Nemotron-Nano-v3 trained with the Code Concepts dataset. Beyond quantitative gains, qualitative assessment reveals stronger performance across varied programming concepts (e.g., graph algorithms, set operations) and improved handling of edge cases and execution reasoning.
We view this dataset as a validation of the broader concept-driven generation workflow rather than a one-off artifact. By releasing both the dataset and the underlying taxonomy under a permissive open license (CC‑BY‑4.0), we hope to enable the community to extend this method to other domains and use cases in scalable, targeted LLM pretraining.
Figure 3: Base-model benchmark evaluation results obtained after performing a 100 billion token data-ablation experiment using ~10 billion tokens of the Code Concepts data. The model trained on the Code Concepts data achieves a six-point gain on HumanEval and most other benchmarks are unchanged.
関連記事
NVIDIA Cosmos World Foundation Modelsによる合成データのスケーリングと物理AI推論
ロボット動画生成のための NVIDIA Cosmos Predict 2.5 の LoRA/DoRA を用いたファインチューニング(9 分読了)
ロボット動画生成のための NVIDIA Cosmos Predict 2.5 の LoRA/DoRA を用いたファインチューニング
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み