#cuda のAIニュース

14件の記事

CCCL ランタイム:CUDA 向けのモダンな C++ ランタイム

NVIDIA が CUDA 環境向けに設計した、モダンな C++ ランタイム「CCCL」を発表しました。これにより、開発者はより効率的かつ安全に GPU 計算リソースを活用できるようになります。

NVIDIA Developer Blog·6月23日·★★★★

NVIDIA cuTile Python チュートリアル:Colab でベクトル加算、行列加算、行列乗算を行うタイル化 GPU カーネルの構築

NVIDIA は Colab 環境で cuTile を使用し、Python から直接効率的な CUDA スタイルカーネルを実装するチュートリアルを提供した。この手法はベクトルや行列の演算をタイル処理で高速化する。

MarkTechPost·6月9日

NVIDIA CompileIQ の自動調整でカーネルパフォーマンスをさらに引き出す(10 分読了)

NVIDIA は CUDA 13.3 に統合された AI 駆動の進化型アルゴリズム「CompileIQ」により、特定のワークロード向けに GPU コンパイラ設定を自動調整し、最適化済みタスクで最大 15% のパフォーマンス向上を実現した。

TLDR AI·5月27日·★★★★

NVIDIA CompileIQによる自動チューニングでカーネルパフォーマンスを最大化

NVIDIAは、特定の環境に最適なコンパイラオプションを見つけるという難問に対し、CompileIQの自動チューニング機能を活用することで、より高いカーネルパフォーマンスを引き出す方法を発表した。

NVIDIA Developer Blog·5月27日·★★★★

NVIDIA CUDA Tile を用いた C++ による高性能 GPU カーネルの開発

開発者は、既存の大型 C++ GPU コードベース内で NVIDIA CUDA Tile プログラミングを活用し、タイルベース手法を用いて高度に最適化された GPU カーネルを開発できるようになった。

NVIDIA Developer Blog·5月27日·★★★★

連続バッチ処理における非同期性の解放(20 分読了)

CUDA ストリームとイベントを活用し、CPU が次のバッチ準備を並行して行うことで、GPU のアイドル時間を削減。これにより推論時の GPU 利用率が 22% 向上し、モデル変更なしで生成速度が大幅に改善される。

TLDR AI·5月15日·★★★★

デワルケシュ・パテルのポッドキャストにおけるNVIDIA最高経営責任者ジェンスン・ファンとの対談

デワルケシュ・パテルのポッドキャストで、NVIDIA最高経営責任者ジェンスン・ファンが出演し、重要な議論を展開した。この対談は業界内で大きな注目を集めており、AIやテクノロジー分野におけるNVIDIAの動向を理解する上で参考となる内容である。

The Zvi·4月17日·★★★★

NVIDIA NVbandwidth:GPU相互接続とメモリ性能を測定する必須ツール

NVIDIAが、CUDAアプリケーション開発時に重要なデータ転送性能を測定するツール「NVbandwidth」を公開した。このツールはGPU間の相互接続とメモリ性能を評価するために設計されている。

NVIDIA Developer Blog·4月15日

CUDAタイルプログラミングがBASICで利用可能に!

NVIDIAがCUDA 13.1でCUDA Tileを導入し、BASIC言語で細粒度並列処理をよりアクセスしやすく柔軟にする次世代タイルベースGPUプログラミングパラダイムを提供した。

NVIDIA Developer Blog·4月2日

CUDA 13.2が強化されたCUDA Tileサポートと新Python機能を導入

NVIDIAがCUDA 13.2をリリースし、CUDA TileをNVIDIA AmpereとAdaアーキテクチャでサポートし、Python機能も追加した。

NVIDIA Developer Blog·3月10日·★★★★

NVIDIA CCCLにおける浮動小数点演算の決定性制御

NVIDIAが、同一入力データに対して複数回実行しても同じビット単位の結果を生成する浮動小数点演算の決定性を制御する技術について説明している。

NVIDIA Developer Blog·3月6日

cuTile.jlがNVIDIA CUDAタイルベースプログラミングをJuliaに導入

NVIDIAがJulia向けにcuTile.jlを発表し、CUDAタイルベースプログラミングを実現。これによりテンソルコアへの自動アクセスが可能になり、JuliaでのGPUプログラミングが強化される。

NVIDIA Developer Blog·3月4日·★★★★

エピローグ融合による効率的なカーネルの作成

機械学習におけるGEMM演算後のバイアスや活性化などの小規模処理を、レジスタ内で統合実行する「エピローグ融合」手法について解説。これによりグローバルメモリへの不要な読み書きを削減し、計算効率を向上させる技術的アプローチを示している。

fal.ai Blog·2月4日·★★★★

ClaudeにCUDAカーネルを構築させ、オープンモデルを教え込むことに成功!

Anthropic社のAIモデルClaudeが、CUDAカーネルを構築し、オープンソースモデルにその知識を伝達する能力を実証した。

Hugging Face Blog·1月28日·★★★★