#cuda のAIニュース

14件の記事

CCCL ランタイム：CUDA 向けのモダンな C++ ランタイム

NVIDIA が CUDA 環境向けに設計した、モダンな C++ ランタイム「CCCL」を発表しました。これにより、開発者はより効率的かつ安全に GPU 計算リソースを活用できるようになります。

NVIDIA は Colab 環境で cuTile を使用し、Python から直接効率的な CUDA スタイルカーネルを実装するチュートリアルを提供した。この手法はベクトルや行列の演算をタイル処理で高速化する。

NVIDIA は CUDA 13.3 に統合された AI 駆動の進化型アルゴリズム「CompileIQ」により、特定のワークロード向けに GPU コンパイラ設定を自動調整し、最適化済みタスクで最大 15% のパフォーマンス向上を実現した。

NVIDIAは、特定の環境に最適なコンパイラオプションを見つけるという難問に対し、CompileIQの自動チューニング機能を活用することで、より高いカーネルパフォーマンスを引き出す方法を発表した。

開発者は、既存の大型 C++ GPU コードベース内で NVIDIA CUDA Tile プログラミングを活用し、タイルベース手法を用いて高度に最適化された GPU カーネルを開発できるようになった。

CUDA ストリームとイベントを活用し、CPU が次のバッチ準備を並行して行うことで、GPU のアイドル時間を削減。これにより推論時の GPU 利用率が 22% 向上し、モデル変更なしで生成速度が大幅に改善される。

デワルケシュ・パテルのポッドキャストで、NVIDIA最高経営責任者ジェンスン・ファンが出演し、重要な議論を展開した。この対談は業界内で大きな注目を集めており、AIやテクノロジー分野におけるNVIDIAの動向を理解する上で参考となる内容である。

NVIDIAが、CUDAアプリケーション開発時に重要なデータ転送性能を測定するツール「NVbandwidth」を公開した。このツールはGPU間の相互接続とメモリ性能を評価するために設計されている。

NVIDIAがCUDA 13.1でCUDA Tileを導入し、BASIC言語で細粒度並列処理をよりアクセスしやすく柔軟にする次世代タイルベースGPUプログラミングパラダイムを提供した。

NVIDIAがCUDA 13.2をリリースし、CUDA TileをNVIDIA AmpereとAdaアーキテクチャでサポートし、Python機能も追加した。

NVIDIAが、同一入力データに対して複数回実行しても同じビット単位の結果を生成する浮動小数点演算の決定性を制御する技術について説明している。

NVIDIAがJulia向けにcuTile.jlを発表し、CUDAタイルベースプログラミングを実現。これによりテンソルコアへの自動アクセスが可能になり、JuliaでのGPUプログラミングが強化される。

機械学習におけるGEMM演算後のバイアスや活性化などの小規模処理を、レジスタ内で統合実行する「エピローグ融合」手法について解説。これによりグローバルメモリへの不要な読み書きを削減し、計算効率を向上させる技術的アプローチを示している。

Anthropic社のAIモデルClaudeが、CUDAカーネルを構築し、オープンソースモデルにその知識を伝達する能力を実証した。