NVIDIAがAI向けオープンデータを構築する方法
NVIDIAは、AI開発の大きなボトルネックである高品質データセットの構築を加速するため、Hugging Face上で2ペタバイト以上のオープンデータセットと650以上のオープンモデルを公開し、開発者がすぐに構築できるトレーニングレシピと評価フレームワークを提供している。
キーポイント
AI開発におけるデータの重要性
AIの進歩はモデルの能力と効率で語られるが、実際にはすべてのトレーニングパイプラインはデータ層に依存しており、エージェントシステムが自律的になるほど、トレーニングデータが知識、推論、安全性を決定する。
オープンデータアクセスの利点
オープンデータアクセスは、開発者に高品質モデル構築のより速く費用対効果の高い道筋を与え、エコシステム全体での評価と改善を容易にする。
NVIDIAのオープンデータ戦略
NVIDIAは、Hugging Face上で許諾ライセンスのデータセットを公開し、GitHubでトレーニングレシピと評価フレームワークを提供することで、AI開発の摩擦を減らすことを目指している。
実績と今後の展開
NVIDIAはこれまでに180以上のデータセットと650以上のオープンモデルで2ペタバイト以上のAI対応トレーニングデータを共有しており、これはまだ始まりに過ぎない。
Physical AI Collectionの内容と実績
ロボティクスと自律走行向けの大規模マルチモーダルデータセットを提供しており、GR00Tモデル開発や企業での活用実績がある。
Nemotron Personas Collectionの特徴と効果
各国の人口統計に基づく合成人物データセットで、Sovereign AI開発を支援し、実際のシステム精度向上に貢献している。
La Proteinaデータセットの科学的意義
オープンコラボレーションで開発された合成タンパク質データセットで、構造的多様性が高く、創薬研究に活用されている。
影響分析・編集コメントを表示
影響分析
この記事は、AI開発におけるデータの重要性を再認識させるとともに、NVIDIAが業界のボトルネック解消に向けて大規模なオープンデータ戦略を推進していることを示している。これにより、中小企業や研究機関でも高品質なAIモデル開発への参入障壁が下がり、AIエコシステム全体の民主化と加速が期待できる。
編集コメント
NVIDIAが単なるハードウェア企業からAIエコシステムの重要なデータ提供者へと進化していることを示す重要な記事。オープンデータ戦略は業界の民主化を促進する可能性がある。
記事に戻る NVIDIAがAI向けオープンデータを構築する方法
アップボート - Will Jennings WillJenningsDC フォロー
nvidia
Yev Meyer nv-3mei フォロー
nvidia Leanna Chraghchian leannachr フォロー
nvidia
Rebecca Kao rebeccak-nv フォロー
nvidia
Jane Polak Scowcroft jscowcroft フォロー
nvidia Annie Surla asurla1998 フォロー
nvidia 信頼性の高いAIシステムとエージェントのスケーリングに向けた協調的アプローチ。
AIの進歩は、多くの場合、モデルの能力と効率の観点から語られます。しかし実際には、あらゆるトレーニングパイプラインは最終的に、モデルの振る舞いを決定するデータ層に依存しています。
エージェントシステムが自律性を増すにつれ、その学習データは、システムの知識、推論方法、安全に実行できる行動をますます決定づけるようになります。にもかかわらず、現在の学習データの多くは、不透明であったり、断片的であったり、チーム間でサイロ化されたままです。
オープンデータアクセスはこの状況を一変させます。開発者に対して高品質なモデル構築へのより迅速で費用対効果の高い道筋を提供すると同時に、エコシステム全体での評価と改善を容易にします。これが、NVIDIAがオープンモデル、ツール、学習手法と並行してオープンデータセットを公開する理由です。
AI開発におけるデータのボトルネック
高品質なデータセットの構築は、AI開発における最大のボトルネックの一つであり続けています。組織は、単一のモデル学習を開始する前に、データの収集、アノテーション、検証に数百万ドルと数ヶ月、あるいは1年以上を費やすことが珍しくありません。モデルがデプロイされた後でも、ドメイン専門知識や評価フレームワークへのアクセスは、常に付きまとう課題です。
NVIDIAは、この障壁を低減するため、Hugging Face上で許諾ライセンスのデータセットを公開し、GitHub上で学習レシピと評価フレームワークを提供しています。これにより、開発者はすぐに構築を始めることができます。これまでに、180を超えるデータセットと650以上のオープンモデルにわたり、2ペタバイト以上のAI対応トレーニングデータを共有してきました。そして、これはまだ始まりに過ぎません。
実世界のオープンデータセット
NVIDIAのオープンデータ公開は、ロボティクスや自律システムからソブリンAI、生物学、評価ベンチマークまで、複数の領域にまたがっています。NVIDIA内の各チームによって構築されたこれらのデータセットは、データを共有することが、いかに実世界のAI開発を加速させるかを示しています。
以下に、当社のエコシステム全体からいくつかの例を紹介します。
Physical AI コレクション
ロボティクスシステムには、構造化されたマルチモーダルデータが必要です。このコレクションには、50万以上のロボティクストラジェクトリ、5700万の把持動作、15TBのマルチモーダルデータが含まれており、複数のグリッパータイプとセンサー構成にわたってNVIDIA GR00T推論ビジョン言語アクションモデルを開発するために使用されたアセットも含まれます。このデータセットは、オープンなGR00Tデータセットを用いて最近公開されたGWM-Robotics世界モデルを開発したRunway社や、ロボティクスシミュレーション企業のLightwheel社がロボティクス方策を改良するためにこのデータセットを使用するなど、1000万回以上ダウンロードされています。
このコレクションには、利用可能な中で最も地理的多様性に富んだ自動運転車(AV)データセットの一つも含まれており、25か国、2500以上の都市にまたがる7台のカメラ構成にLiDARとレーダーを加えたマルチセンサーデータが1700時間以上収録されています。この広範なデータは、様々な運転環境における知覚ベンチマークを支援し、より広い商業的実用性を持つ学術データセットを補完します。
Nemotron Personas コレクション
Nemotron Personasは、実世界の人口統計分布に基づいた完全合成のペルソナデータセットであり、地域や言語を超えて文化的に真正で多様な個人を大規模に生成します。
このコレクションはソブリンAI開発を支援し、現在以下の人口規模のデータセットを含んでいます:
アメリカ合衆国 – 600万人のペルソナ
日本 – 600万人のペルソナ
インド – 2100万人のペルソナ
ブラジル – 600万人のペルソナ(WideLabsと共同開発)
シンガポール – 88万8000人のペルソナ(AI Singaporeと共同開発)
これらのデータセットは、すでに世界中で実際のデプロイメントを支えています。CrowdStrike社は200万人のペルソナを使用して、NL→CQL翻訳の精度を50.7%から90.4%に改善しました。日本では、NTTデータとAPTO社がこれらのデータセットを用いて、最小限の独自データでドメイン固有の知能をブートストラップし、法的QAの精度を15.3%から79.3%に向上させ、攻撃成功率を7%から0%に削減しました。
これらのデータセットはまた、最先端の10Bパラメータ未満モデルであるNVIDIA Nemotron-Nano-9B-v2-Japaneseの開発を支え、Nejumiリーダーボードのトップに到達しました。
La Proteinaは、生物学的モデリングと創薬ワークフローのために設計された、完全合成の原子的タンパク質データセットです。45万5000の構造体と、従来のベースラインに対して最先端の73%の構造多様性向上を特徴とし、PII(個人識別情報)やライセンス制約なしで設計にすぐ使える分子表現を提供します。これは、オックスフォード大学、Mila研究所、CIFARの研究者たちとのオープンな共同研究によって可能となった科学的成果です。
SPEED-Benchは、投機的デコーディング性能を評価するための標準化されたベンチマークです。2つの分割で構成されています:11のテキストカテゴリーにわたって意味的多様性を最大化する「Qualitative Split」と、ランダムなトークンではなく実際の意味的データを使用して正確なスループットのパレート曲線を構築するため、入力シーケンス長のバケット(1K–32K)に整理された「Throughput Split」です。すでにNemotron MTP性能の主要な内部ベンチマークとして採用されており、SPEED-Benchはチームに対して、プロンプトの複雑さとコンテキスト長にわたるドラフトモデルの性能を評価する一貫した方法論を提供します。
Retrieval-Synthetic-NVDocs-v1
この合成検索データセットは、NVIDIAの公開ドキュメント1万5000ファイルから生成された、11万のクエリ、パッセージ、回答のトリプレットを提供します。埋め込みモデルとRAG(検索拡張生成)システムの学習と評価のために設計され、このデータセットは、事実的、関係的、手順的、推論的、時間的、因果的、視覚的など、複数の推論タイプにわたる意味的に豊富なQAペアと、構造的、マルチホップ、コンテキスト依存的なクエリを含む多様なクエリタイプを特徴としています。埋め込みモデルのドメイン内ファインチューニングは、大幅な向上を示しています:nvidia/llama-nemotron-embed-1b-v2をこのデータセットでファインチューニングすると、NDCG@10が11%向上します。このデータセットは約3〜4日で生成でき、ファインチューニングは8基のA100 GPUで約2時間かかります。これにより、データセットからデプロイ済みモデルへの迅速な反復的改良が可能になります。
Nemotron-ClimbMix
ClimbMixは、CLIMBアルゴリズムを用いて構築された400Bトークンの事前学習データセットです。CLIMBアルゴリズムは、埋め込みベースのクラスタリングと反復的な改良を使用して、言語モデル学習のためのより高品質なデータ混合物を特定します。このデータセットはすでにコミュニティから大きな関心を集めています:Andrej Karpathy氏は、Nemotron-ClimbMixが「Time-to-GPT-2」リーダーボードで最大の改善をもたらすと指摘し、NanoChat Speedrunのデフォルトデータレシピとして採用され、以前のFineWeb-Eduセットアップと比較してH100の計算時間を約33%削減しました。ClimbMixはCC-BY-NC-4.0ライセンスの下で公開されています。
これらの公開は、AI開発者がモダリティとモデルライフサイクルの段階を超えて依存できる、共有された参照基盤への継続的な投資を反映しています。
Nemotronトレーニングデータセット
NVIDIAのオープンデータ活動の中核をなすものの一つが、Nemotronモデルファミリーの学習とアライメントに使用される一連のデータセットです。過去1年間で、これらのデータセットは、フロンティア言語モデルにおける推論、コーディング、多言語能力をより良くサポートするように進化してきました。
Nemotron事前学習の進化
Nemotron事前学習の進化を示すチャート
初期の公開は一般的なウェブコーパスに大きく依存していましたが、新しい公開では数学、コード、STEM知識などのより高シグナルな領域が強調されています。この増加したシグナル密度により、モデルはより強力な推論と問題解決能力を学習できます。
Nemotron事前学習スタックには、異なる能力のために設計されたいくつかの精選データセットが含まれています:
Nemotron-CC – より高シグナル密度のために書き直された、グローバルに重複排除されたウェブデータ
Nemotron-CC-Math および Nemotron-CC-Code – LaTeXとコードフォーマットを保持した数学とコード推論データ
Nemotron-Pretraining-Code – 大規模コードリポジトリから精選されたプログラミングデータセット
Nemotron-Pretraining-Specialized – アルゴリズム、経済学、論理、STEM推論などの主要領域で能力を高めるための合成データセット
これらのデータセットは、推論、コーディング、多言語理解が可能な汎用言語モデルの基盤を形成します。これらはNemotronだけでなく、AIセキュリティ企業Trend MicroのPrimus-Labor-70Bのようなパートナーのフロンティアモデルも支えています。
Nemotron事後学習の進化
Nemotron事後学習の進化を示すチャート
Nemotron事後学習スタックの主要なデータセットには以下が含まれます:
Nemotron-Instruction-Following-Chat – 構造化された会話的指示追従データ
Nemotron-Science – 合成科学推論データセット
Nemotron-Math-Proofs – 形式的数学推論データセット
Nemotron-Agentic – マルチステップ計画とツール使用をサポートするデータセット
Nemotron-SWE – ソフトウェアエンジニアリングタスクのための指示チューニングデータセット
これらのデータセットは、モデルが複雑な指示に従い、推論の過程を生成し、多段階タスクを確実に実行するのを助ける構造化された監督を提供します。初期の反復では、ドメインデータと組み合わせてServiceNowのApriel Nemotron 15B / Apriel 1.6 Thinkerが開発されました。これは15Bパラメータ規模でGemini 2.5 FlashとQwen3を上回り、またHugging Faceで人気の小規模言語モデルであるSmolLM3も開発されました。
NVIDIAはまた、オープンな安全性と強化学習データセットでこの取り組みを拡大しています。これにはNemotron-Agentic-Safety(ツール使用ワークフローから得られた1万1000のラベル付きテレメトリートレース)とNemotron-RLが含まれます。Nemotron-RLは数学、コーディング、ツール使用、パズル、推論にまたがる90万タスクのコーパスで、モデルに真のトレーニング「ジム」を提供します。
エクストリーム・コードザイン
この規模で高品質なデータセットを設計することはチームスポーツです。データ戦略家、AI研究者、インフラストラクチャエンジニア、政策専門家の緊密な協力が必要となります。
NVIDIAでは、データへのアプローチを、あらゆるソフトウェアおよびハードウェアエンジニアリングの問題と同様に行います。私たちはこれをエクストリーム・コードザインと呼んでいます。つまり、すべてのコンポーネントを一緒に設計し、大規模なボトルネックを排除するのです。
可能な限り、データセットとその背後にある手法を公開しています。オープンコミュニティとパートナーはそれらをストレステストし、エッジケースを明らかにし、データセットを新しい領域に拡張します。これらの洞察は直接次の反復に反映され、私たちの内部システムとより広範なAIエコシステムの両方を改善します。 
CES 2026 基調講演
NVIDIAはまた、ViDoReとCVDPという2つのコンソーシアムを通じてパートナーと協力しています。これらは業界と学術パートナーを結集し、新興AIシステムのためのオープンベンチマークと評価フレームワークを開発します。
オープンキッチンで料理を始めよう
NVIDIAでは、オープンデータをオープンキッチンのように考えています。材料は見え、レシピは共有され、誰もが料理の作り方を学ぶことができます。
データサイエンスとモデル構築に情熱を持つすべての方に、Hugging Face上のNVIDIAのオープンデータセットを探索し、チュートリアルとNemotronラボを試し、DiscordのNemotronコミュニティに参加して将来のデータセットに協力することをお勧めします。
次世代の信頼できるAIモデルとエージェントシステムは、共有された基盤の上に構築されます。オープンデータはその重要な一角です。
原文を表示
Back to Articles How NVIDIA Builds Open Data for AI
Upvote - Will Jennings WillJenningsDC Follow
nvidia
Yev Meyer nv-3mei Follow
nvidia Leanna Chraghchian leannachr Follow
nvidia
Rebecca Kao rebeccak-nv Follow
nvidia
Jane Polak Scowcroft jscowcroft Follow
nvidia Annie Surla asurla1998 Follow
nvidia A collaborative approach to scaling trustworthy AI systems and agents.
AI progress is often framed in terms of model capability and efficiency. In reality, every training pipeline ultimately rests on a data layer that determines how those models behave.
As agentic systems become more autonomous, the data they are trained on increasingly determines what they know, how they reason, and what they can safely do. Yet much of today’s training data remains opaque, fragmented, or siloed across teams.
Open data access changes that equation. It gives developers a faster and more cost-effective path to building high-quality models, while making evaluation and improvement easier across the ecosystem. This is why NVIDIA releases open datasets alongside its open models, tools, and training techniques.
AI-Data Bottlenecks
Building high-quality datasets remains one of the largest bottlenecks in AI development. Organizations often spend millions of dollars and months—or even more than a year—collecting, annotating, and validating data before a single model training run begins. Even when models are deployed, access to domain expertise and evaluation frameworks remains an evergreen challenge.
NVIDIA aims to reduce this friction by publishing permissively licensed datasets on HuggingFace with training recipes and evaluation frameworks on GitHub that developers can build on immediately. To date, we’ve shared more than 2 petabytes of AI-ready training data across more than 180 datasets and 650+ open models. And we’re just getting started.
Real-World Open Datasets
NVIDIA’s open data releases span multiple domains — from robotics and autonomous systems to sovereign AI, biology, and evaluation benchmarks. Built by teams across NVIDIA, these datasets demonstrate how shared data can accelerate real-world AI development.
Here are a few examples from across our ecosystem:
Physical AI Collection
Robotics systems require structured, multimodal data. This collection includes 500K+ robotics trajectories, 57M grasps, and 15TB of multimodal data, including assets used to develop the NVIDIA GR00T reasoning vision-language-action model across multiple gripper types and sensor configurations. The dataset has been downloaded more than 10 million times, including by companies such as Runway, which developed its recently released GWM-Robotics world model using the open GR00T dataset, and robotics simulation company Lightwheel, which is using the dataset to refine robotics policies.
This collection also includes one of the most geographically diverse AV datasets available, with more than 1,700 hours of multi-sensor data that includes 7-camera configurations plus LiDAR and radar spanning 25 countries and over 2,500 cities. That breadth supports perception benchmarking across varied driving environments and complements academic datasets with broader commercial usability.
Nemotron Personas Collection
Nemotron Personas are fully synthetic persona datasets grounded in real-world demographic distributions, producing culturally authentic, diverse individuals across regions and languages at scale.
The collection supports Sovereign AI development and currently includes population-scale datasets for:
United States – 6M personas
Japan – 6M personas
India – 21M personas
Brazil – 6M personas (developed with WideLabs)
Singapore – 888K personas (developed with AI Singapore)
These datasets are already powering real deployments globally. CrowdStrike used 2M personas to improve NL→CQL translation accuracy from 50.7% to 90.4%. In Japan, NTT Data and APTO used the datasets to bootstrap domain-specific intelligence with minimal proprietary data, improving legal QA accuracy from 15.3% to 79.3% and reducing attack success rates from 7% to 0%.
The datasets also supported the development of NVIDIA Nemotron-Nano-9B-v2-Japanese, a state-of-the-art sub-10B model that reached the top of the Nejumi leaderboard.
La Proteina is a fully synthetic, atomistic protein dataset designed for biological modeling and drug discovery workflows. With 455,000 structures and a state-of-the-art 73% structural diversity boost over prior baselines, it provides design-ready molecular representations without PII or licensing constraints. A scientific achievement made possible by an open collaboration with researchers from Oxford, Mila, and CIFAR.
SPEED-Bench is a standardized benchmark for evaluating speculative decoding performance. It features two splits: a Qualitative Split that maximizes semantic diversity across 11 text categories, and a Throughput Split organized into input sequence length buckets (1K–32K) for constructing accurate throughput Pareto curves using real semantic data rather than random tokens. Already adopted internally as the primary benchmark for Nemotron MTP performance, SPEED-Bench gives teams a consistent methodology for evaluating draft performance across prompt complexities and context lengths.
Retrieval-Synthetic-NVDocs-v1
This synthetic retrieval dataset provides 110,000 triplets of query, passage, and answer generated from 15,000 files of NVIDIA public documentation. Designed to train and evaluate embedding and RAG systems, the dataset features semantically rich QA pairs spanning multiple reasoning types—factual, relational, procedural, inferential, temporal, causal, and visual—alongside diverse query types including structural, multi-hop, and contextual queries. In-domain fine-tuning of embedding models demonstrates substantial gains: fine-tuning nvidia/llama-nemotron-embed-1b-v2 on this dataset yields an 11% increase in NDCG@10. The dataset can be generated in roughly 3–4 days, and fine-tuning takes about two hours on 8×A100 GPUs—enabling rapid iteration from dataset to deployed model.
Nemotron-ClimbMix
ClimbMix is a 400B-token pre-training dataset built using the CLIMB algorithm, which uses embedding-based clustering and iterative refinement to identify higher-quality data mixtures for language model training. The dataset has already gained strong community traction: Andrej Karpathy highlighted Nemotron-ClimbMix as delivering the largest improvement on the Time-to-GPT-2 leaderboard, leading to its adoption as the default data recipe in NanoChat Speedrun and reducing H100 compute time by roughly 33% compared to the previous FineWeb-Edu setup. ClimbMix is released under the CC-BY-NC-4.0 license.
These releases reflect an ongoing investment in the shared reference layer that AI developers depend on across modalities and model lifecycle stages.
Nemotron Training Datasets
One major component of NVIDIA’s open data work is the set of datasets used to train and align the Nemotron model family. Over the past year these datasets have evolved to better support reasoning, coding, and multilingual capabilities in frontier language models.
Nemotron Pre-Training Evolution
Nemotron-Pre-Training Evolution Chart
Earlier releases relied heavily on general web corpora, while newer releases emphasize higher-signal domains such as math, code, and STEM knowledge. This increased signal density enables models to learn stronger reasoning and problem-solving capabilities.
The Nemotron pre-training stack includes several curated datasets designed for different capabilities:
Nemotron-CC – globally deduplicated web data rewritten for higher signal density
Nemotron-CC-Math and Nemotron-CC-Code – math and code reasoning preserving LaTeX and code formatting
Nemotron-Pretraining-Code – curated programming datasets from large code repositories
Nemotron-Pretraining-Specialized – synthetic datasets to boost capabilities in key domains like algorithms, economics, logic, STEM reasoning
Together, these datasets form the foundation for general-purpose language models capable of reasoning, coding, and multilingual understanding. They power Nemotron as well as partner frontier models like the AI security company Trend Micro’s Primus-Labor-70B.
Nemotron-Post-Training Evolution
Nemotron Post-Training Evolution Chart
Key datasets in the Nemotron post-training stack include:
Nemotron-Instruction-Following-Chat – structured conversational supervision
Nemotron-Science – synthetic science reasoning datasets
Nemotron-Math-Proofs – formal mathematical reasoning datasets
Nemotron-Agentic – datasets supporting multi-step planning and tool use
Nemotron-SWE – instruction tuning datasets for software engineering tasks
These datasets provide structured supervision that helps models follow complex instructions, generate reasoning traces, and perform reliably in multi-step tasks. Early iterations were blended with domain data to develop ServiceNow's Apriel Nemotron 15B / Apriel 1.6 Thinker, which surpassed Gemini 2.5 Flash and Qwen3 at the 15B parameter scale, and Hugging Face's SmolLM3, a popular small language model.
NVIDIA is also expanding this work with open safety and reinforcement learning datasets, including Nemotron-Agentic-Safety (11K labeled telemetry traces from tool-use workflows) and Nemotron-RL, a 900K-task corpus spanning math, coding, tools, puzzles, and reasoning that gives models a true training “gym.”
Extreme Co-Design
Designing high-quality datasets at this scale is a team sport. It requires close collaboration between data strategists, AI researchers, infrastructure engineers, and policy experts.
At NVIDIA, we approach data the same way we do any software and hardware engineering problem, through what we call extreme co-design — designing all components together to eliminate bottlenecks at scale.
When possible, we release the datasets as well as the methods behind them. The open community and our partners then stress-tests them, surfaces edge cases, and extends the datasets into new domains. Those insights feed directly into the next iteration, improving both our internal systems and the broader AI ecosystem. 
CES 2026 Keynote
NVIDIA also collaborates with partners through initiatives like the ViDoRe and CVDP, two consortia that bring together industry and academic partners to develop open benchmarks and evaluation frameworks for emerging AI systems.
Start Cooking in the Open Kitchen
At NVIDIA, we think about open data much like an open kitchen. The ingredients are visible, the recipes are shared, and everyone can learn from how the dish is prepared.
We encourage anyone passionate about data science and model building to explore NVIDIA’s open datasets on Hugging Face, try our tutorials and Nemotron labs, and join the Nemotron community on Discord to collaborate on future datasets.
The next generation of trustworthy AI models and agentic systems will be built on shared foundations. Open data is one of them.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み