NVIDIA Developer Blog の最新記事
公式97件の記事
次世代AIの新たなフロンティアに向けたNVIDIA BlueField-4搭載CMXコンテキストメモリストレージプラットフォームの紹介
NVIDIAが、エージェント型AIワークフローで数百万トークンに拡大するコンテキストウィンドウに対応するCMXコンテキストメモリストレージプラットフォームを発表した。
NVIDIA Dynamo 1.0が本番規模のマルチノード推論を実現する仕組み
NVIDIAがDynamo 1.0を発表し、大規模化する推論モデルを複数ノードで効率的に実行する本番環境向けソリューションを提供した。
NVIDIA DGX Sparkによる自律AIエージェントとワークロードのスケーリング
NVIDIAは、複数の通信チャネルを使用する長時間タスクを管理する自律AIエージェント向けに、DGX Sparkプラットフォームを提供している。
ニュートンが産業用ロボティクスに接触豊富な操作と移動機能を追加
NVIDIAが物理ベースのロボットシミュレーション「ニュートン」に、移動と操作タスクのための接触豊富な機能を追加し、産業用ロボティクスの現実的なモデリングを強化した。
NVIDIA OpenShellで自律的・自己進化型エージェントをより安全に実行
NVIDIAがOpenShellを発表し、自律的・自己進化型AIエージェントの安全な実行環境を提供する。AIは指示に従うアシスタントから独立して行動するエージェントへ進化した。
NVIDIA DSX AirでAIファクトリーインフラを設計、シミュレート、スケールする
NVIDIAがDSX Airを発表した。同ツールはAIファクトリー構築における計算・ネットワーク・セキュリティ・ストレージシステムの効率的統合を支援し、AI導入までの時間短縮を実現する。
NVIDIA Vera CPU、AIファクトリー向けに高性能・高帯域幅・高効率を実現
NVIDIAがVera CPUを発表し、AIインフラの各層に新たな要件が生じる中、推論モデルのトークン需要増加に対応する高性能・高帯域幅・高効率をAIファクトリー向けに提供する。
NVIDIA Vera Rubin POD:7チップ、5つのラックスケールシステム、1つのAIスーパーコンピューター
NVIDIAは、7つのチップと5つのラックスケールシステムで構成される「Vera Rubin POD」AIスーパーコンピューターを発表した。同システムはトークン駆動型AI処理に最適化されており、急増するトークン消費需要に対応する高性能計算基盤を提供する。
NVIDIA Cosmos World Foundation Modelsによる合成データのスケーリングと物理AI推論
NVIDIAは、人型ロボットや自動運転車などの次世代AI駆動ロボット向けに、高忠実度で物理法則を考慮した合成データを生成する「Cosmos World Foundation Models」を発表した。
NVIDIA Cosmos World Foundation Modelsによる合成データのスケーリングと物理AI推論
NVIDIAは、人型ロボットや自動運転車などの次世代AI駆動ロボット向けに、高忠実度で物理法則を考慮した合成データ生成と推論を可能にする「Cosmos World Foundation Models」を発表した。
NVIDIA WarpでAI向けの高速化・微分可能な計算物理コードを構築
NVIDIAがWarpを発表し、AI駆動のCAE(コンピュータ支援エンジニアリング)向けに、物理基礎モデルを汎用化する高速で微分可能な計算物理コードの構築を可能にした。
階層的で再現可能なレシピでKubernetesのGPUインフラを検証する
NVIDIAは、Kubernetes上でAIクラスターを実行する際に、低レベルのドライバー設定から高レベルのオペレーターまで、完全なソフトウェアスタックを統合的に検証する手法を提案している。
自律走行車とロボティクスのためのエッジファーストLLMで次世代物理AIを構築
NVIDIAが、自律走行車やヒューマノイドロボット向けに、エッジファーストの大規模言語モデルを用いた次世代物理AIの開発を進めている。
Nemotron 3 Superの紹介:エージェント推論のためのオープンなハイブリッドMamba-Transformer MoE
NVIDIAが、エージェントAIシステム向けに推論・コーディング・長文脈処理に特化したオープンソースのハイブリッドMamba-Transformer MoEモデル「Nemotron 3 Super」を発表した。
Unreal Engine向け信頼性の高いAIコーディング:精度向上とトークンコスト削減
NVIDIAが、ゲーム開発におけるAIコードアシスタントの精度向上とコスト削減の取り組みを発表した。スタジオが大規模な世界構築やDLC配信、分散チーム対応を進める中、AIアシスタントの日常的な活用が進んでいる。
NVIDIA RTXの革新がゲーム開発の新時代を牽引
NVIDIAは、RTXのレイトレーシングとAI駆動のニューラルレンダリング技術により、ゲーム制作の方法を再定義し、視覚効果とパフォーマンスの新基準を確立している。
CUDA 13.2が強化されたCUDA Tileサポートと新Python機能を導入
NVIDIAがCUDA 13.2をリリースし、CUDA TileをNVIDIA AmpereとAdaアーキテクチャでサポートし、Python機能も追加した。
NVIDIA Megatron CoreにおけるFalcon-H1ハイブリッドアーキテクチャの実装
NVIDIAが、大規模言語モデル開発の基盤フレームワーク「Megatron Core」に、新しいハイブリッドアーキテクチャ「Falcon-H1」を実装した。この技術は、LLMトレーニングの効率性と拡張性を向上させることを目的としている。
NVIDIA推論転送ライブラリによる分散推論性能の向上
NVIDIAが大規模言語モデルの分散推論を効率化する「推論転送ライブラリ」を発表し、複数GPU間での計算負荷分散とリクエスト処理の最適化を実現した。
分散型サービングから推測作業を排除
NVIDIAが、大規模言語モデルの高性能かつコスト効率の良いサービングにおける分散型アーキテクチャの最適化手法を提案し、推測作業を減らす技術を発表した。
NVIDIA Blackwellが金融分野におけるLLM推論でSTAC-AI記録を樹立
NVIDIAのBlackwellプラットフォームが、金融取引向け大規模言語モデルの推論性能でSTAC-AIベンチマーク記録を達成した。同技術は大量の非構造化データを分析し、金融取引の意思決定を支援する。
NVIDIA CCCLにおける浮動小数点演算の決定性制御
NVIDIAが、同一入力データに対して複数回実行しても同じビット単位の結果を生成する浮動小数点演算の決定性を制御する技術について説明している。
NVIDIA CUDA TileにおけるFlash Attentionのピークパフォーマンス調整
NVIDIAが、現代AIの重要なワークロードであるFlash Attentionの実装方法と、CUDA Tileを使用した最適化テクニックを解説している。
コーディングエージェントでゲームランタイム推論コストを最小化する方法
NVIDIAが、ゲーム向けAIエージェント構築技術スイート「ACE」を提供し、クラウドとオンデバイスのAIモデルを統合することで、ゲーム内推論コストの最適化を実現している。
cuTile.jlがNVIDIA CUDAタイルベースプログラミングをJuliaに導入
NVIDIAがJulia向けにcuTile.jlを発表し、CUDAタイルベースプログラミングを実現。これによりテンソルコアへの自動アクセスが可能になり、JuliaでのGPUプログラミングが強化される。
NVIDIA NeMoを用いた自律ネットワーク向け通信事業者推論モデルの構築
NVIDIAが通信事業者向けに、自律ネットワークを実現する推論モデルをNeMoフレームワークで構築する取り組みを発表した。
開発者が6Gネットワーク構築に活用できる5つの新デジタルツイン製品
NVIDIAが、AIネイティブな6Gネットワークの設計・訓練・検証を支援する5つのデジタルツイン製品を開発者向けに発表した。
NVIDIA GPUアクセラレーテッドエンドポイントを使用したQwen3.5 VLMによるネイティブマルチモーダルエージェントの開発
Alibabaが約4000億パラメータのネイティブマルチモーダルエージェント向けに設計されたオープンソースQwen3.5シリーズを発表した。
NVIDIA Run:aiとNIMによるGPU利用率の最大化
NVIDIAは、異なるリソース要件を持つ推論ワークロードに直面する組織向けに、Run:aiとNIMを活用してGPU利用率を最適化するソリューションを提供している。
NVIDIA Blackwell UltraによるSoftmaxの効率化
NVIDIAの次世代アーキテクチャBlackwell Ultraが、AI計算の重要な関数Softmaxを効率化し、大規模言語モデルの性能向上に貢献する技術革新について。
NVFP4低精度モデルトレーニングによる精度を損なわない高スループットの実現
NVIDIAのNVFP4低精度トレーニング技術は、モデルの精度を維持しながら計算スループットを向上させ、AI開発の効率化とコスト削減に貢献する。
NVIDIA Multi-Instance GPUとNUMAノードローカライゼーションによるデータ処理の高速化
NVIDIAのMIG技術とNUMAノード最適化を組み合わせ、GPUリソースの効率的な分割とメモリアクセス最適化により、AI/機械学習ワークロードのデータ処理速度を向上させる手法を紹介。
NVIDIA Run:aiにおけるGPU分割による大規模トークン処理能力の解放
NVIDIA Run:aiのGPU分割技術により、AIワークロードのトークン処理能力を大幅に向上させる方法を紹介。
NVIDIA CUDA.computeでGPU MODEカーネルリーダーボードをトップに
NVIDIAのCUDA.computeがGPU MODEカーネルリーダーボードで最高性能を達成したことを紹介する技術記事。
NVIDIAの極端なハードウェア・ソフトウェア協調設計がSarvam AIの主権モデルに大規模な推論向上をもたらした方法
NVIDIAのハードウェアとソフトウェアの協調設計により、Sarvam AIの主権AIモデルの推論性能が大幅に向上した。
5つの重要なマルチモーダルRAG機能でAI対応知識システムを構築
NVIDIAが提案する5つのマルチモーダルRAG機能を活用し、AI対応の知識システムを効果的に構築する方法について説明しています。
R²D²:NVIDIA Isaac Labによるマルチモーダルロボット学習の拡張
NVIDIA Isaac Labが開発したR²D²は、マルチモーダルロボット学習を拡張する技術で、ロボットの知能向上を目指しています。
大規模研究施設における加速コンピューティングを用いた科学実験のリアルタイム制御
NVIDIAの加速コンピューティング技術により、大規模研究施設での科学実験をリアルタイムで制御・調整できるようになり、研究効率が大幅に向上。
NVIDIA TensorRT LLM AutoDeployによる推論最適化の自動化
NVIDIAがTensorRT LLM AutoDeployを発表し、大規模言語モデルの推論最適化とデプロイを自動化するツールを提供。AI開発の効率化を目指す。
NVFP4がAIトレーニングと推論を加速する3つの方法
NVIDIAのNVFP4技術が、AIモデルの学習速度向上、推論処理の効率化、エネルギー消費削減の3点でAI開発を革新する内容。
AIモデル蒸留のためのライセンス準拠合成データパイプライン構築方法
NVIDIAが、ドメイン特化型AIモデルのファインチューニングや蒸留において、ライセンス準拠の合成データパイプラインを構築する方法を解説している。
Painkiller RTXが生成AIを活用してゲームアセットを大規模に近代化する方法
NVIDIAは、Painkiller RTXで生成AIを統合し、小規模チームが限られたリソースで大規模なビジュアル向上を実現する新基準を設定した。
NVIDIA GPUアクセラレーションエンドポイントを使用したKimi K2.5マルチモーダルVLMの構築
Kimiが最新のオープンソース視覚言語モデル「Kimi K2.5」を発表した。このモデルは汎用マルチモーダルモデルであり、NVIDIA GPUアクセラレーションエンドポイントを活用して構築できる。
Nemotronを使用したRAG向け文書処理パイプラインの構築方法
NVIDIAが、複雑なPDFの解析、ネストされた表の抽出、チャート内データの認識を可能にする、RAG(検索拡張生成)向け文書処理パイプラインの構築方法を紹介している。
JAXとXLAにおける長文脈モデル学習の高速化
NVIDIAが、大規模言語モデルの長文脈学習をJAXとXLAで高速化する技術を発表した。128Kトークン以上の長文脈処理を効率化する手法を開発した。
ハイブリッドエキスパート並列によるMixture-of-Expertsトレーニングの通信最適化
NVIDIAが、大規模MoEモデルのトレーニングにおけるエキスパート並列通信の課題を解決するハイブリッド手法を提案した。
OpenAI Triton向けCUDA Tile IRバックエンドによるGPUプログラミングの進展
NVIDIAがCUDA Tileを発表した。これはNVIDIA Tensor Core向けの移植性を目指すGPUベースのプログラミングモデルであり、GPUのピーク性能を引き出すことを可能にする。