#gpu のAIニュース
24件の記事
NVIDIA TensorRT を用いた複数 GPU での AI 推論のスケーリングとマルチデバイス推論サポートの紹介
NVIDIA は、TensorRT の新機能であるマルチデバイス推論サポートを活用し、複数の GPU にわたって AI 推論を効率的にスケーリングする手法を発表した。これにより大規模モデルの実行性能が向上する。
高度な融合カーネルによる MoE 学習スループットの向上
NVIDIA は、高度な融合カーネル技術を活用することで、混合専門家モデル(MoE)の学習処理速度を大幅に向上させる手法を発表した。
TSMC、AI需要の増加に対応できず「限界に達している」と表明
世界最大の半導体メーカーである台湾積体電路製造(TSMC)は、米国内での工場建設を進めても、アメリカ顧客からのAI向け需要増に対応しきれていない。同社の魏哲家CEOは株主総会後、「顧客の需要があまりにも高く、対応できる限度がある」と述べた。
インテル:次期 AI チップは NVIDIA や AMD より安価・低温動作へ
インテルのデータセンター部門責任者ケヴォルク・ケチキアン氏は、同社が年内に発売予定の新型 AI 用 GPU「Crescent Island」について、競合他社の製品より安価なメモリと冷却技術を採用し、コスト削減と省電力化を実現すると発表した。
NVIDIA CompileIQによる自動チューニングでカーネルパフォーマンスを最大化
NVIDIAは、特定の環境に最適なコンパイラオプションを見つけるという難問に対し、CompileIQの自動チューニング機能を活用することで、より高いカーネルパフォーマンスを引き出す方法を発表した。
AI ハードウェアに関する考察(7 分読了)
TLDR AI が、AI ハードウェアの現状と将来性について解説した記事で、技術動向や業界への影響を分析している。
連続バッチ処理における非同期性の解放(20 分読了)
CUDA ストリームとイベントを活用し、CPU が次のバッチ準備を並行して行うことで、GPU のアイドル時間を削減。これにより推論時の GPU 利用率が 22% 向上し、モデル変更なしで生成速度が大幅に改善される。
最新 AI ブームの提案:自宅にミニデータセンターを設置
サンフランシスコのスタートアップ「SPAN」は、新築住宅に液体冷却された NVIDIA の GPU を搭載した分散型データセンターノードを設置する計画を発表し、電力やインターネット料金の割引とバックアップバッテリーを提供するパイロット試験を開始した。
中国訪問から学んだ教訓:計算資源の不足が中国 AI の発展を阻んでいる
著者が北京の Moonshot AI(ムーンショット AI)本社を訪れた際、同社の共同創業者ヤン・ジチリン氏率いる研究チームは、ロックバンドにちなんだ会議室で会った。しかし、計算資源の不足が中国 AI の成長を妨げているという深刻な課題が浮き彫りになった。
Nvidia、AI投資家としての役割を強化し今年400億ドル超の株式投資へ
Nvidia は AI ブームの最大の受益者として、自社ハードウェアが基盤となるようサプライチェーン全体を資金支援している。同社は今年だけで 400 億ドル以上の株式投資を行い、チップ販売を超えた支配力を確保しようとしている。
ML ワークロード向け EC2 キャパシティブロックと SageMaker 学習プランによる短期 GPU 容量の確保
AWS は、GPU 需要が供給を上回る現状に対応するため、機械学習トレーニングや推論に使用できる短期間の GPU 容量を予約する「EC2 キャパシティブロック for ML」と「SageMaker 学習プラン」を発表した。
容量対応型推論:SageMaker AI エンドポイントの自動インスタンスフォールバック
AWS は、生成 AI ワークロードの拡大に伴う GPU リソース不足によるエンドポイント障害を防ぐため、Amazon SageMaker AI 上で需要に応じた自動的なインスタンス切り替え機能を導入した。これにより、リソースが枯渇してもサービス継続を可能にする。
デワルケシュ・パテルのポッドキャストにおけるNVIDIA最高経営責任者ジェンスン・ファンとの対談
デワルケシュ・パテルのポッドキャストで、NVIDIA最高経営責任者ジェンスン・ファンが出演し、重要な議論を展開した。この対談は業界内で大きな注目を集めており、AIやテクノロジー分野におけるNVIDIAの動向を理解する上で参考となる内容である。
NVIDIA NVbandwidth:GPU相互接続とメモリ性能を測定する必須ツール
NVIDIAが、CUDAアプリケーション開発時に重要なデータ転送性能を測定するツール「NVbandwidth」を公開した。このツールはGPU間の相互接続とメモリ性能を評価するために設計されている。
NVIDIA GPUに対する新たなRowhammer攻撃がシステム完全制御を可能に
セキュリティ研究者が、NVIDIA GPUを標的とした新たなRowhammer攻撃を実証し、メモリ破損からシステム全体の侵害にエスカレートできることを示した。
AI業界が計算資源不足に直面、障害・割り当て制限・GPU価格高騰が発生
AIエージェントの需要急増が限られた計算資源と衝突している。Anthropicは障害に苦戦し、OpenAIはSoraの終了を発表し、GPU価格は約50%上昇した。
約30行のPythonとNVIDIA nvCOMPでチェックポイントコストを削減
NVIDIAが、LLM学習時のチェックポイント保存コストを削減するPythonスクリプトを公開した。約30行のコードでモデル重み・オプティマイザ状態・勾配の圧縮保存を実現し、ストレージコストとI/O負荷を低減できる。
NeocloudパイオニアCoreWeaveが推論に完全集中
GPU-as-a-serviceベンダーとして知られるCoreWeaveが、事業戦略を再編し、AI推論サービスに注力する方針を発表した。
Nvidiaが288GPUでMLPerf新記録を樹立、AMDとIntelは異なる戦いに注力
Nvidiaは288基のGPUでMLPerfベンチマークの新記録を達成した。一方、AMDとIntelは異なる評価指標を重視しており、直接比較は困難である。最新のMLPerfでは初めてマルチモーダルモデルと動画モデルが導入された。
Mistral AI、パリ近郊に新データセンターを運営するため8億3000万ドルを借り入れる
Mistral AIは、パリ近郊に約14,000台のNVIDIA GPUを備えたデータセンターを建設するため、8億3000万ドルの借り入れを行った。銀行は支援しているが、まだ利益を上げていない可能性のあるスタートアップにとってリスクは大きい。
ジェンセン・フアンCEO、NvidiaのBlackwellとVera Rubinの売上予測を1兆ドル規模に引き上げ
Nvidiaのジェンセン・フアンCEOは、同社の次世代チップ「Blackwell」と「Vera Rubin」に対する受注が1兆ドル規模に達するとの見通しを示した。
シンキング・マシンズ・ラボ、Nvidiaと大規模なコンピュート契約を締結
シンキング・マシンズ・ラボがNvidiaと複数年にわたる契約を結び、少なくとも1ギガワットの計算能力を確保し、Nvidiaから戦略的投資も受ける。
Nvidia、記録的な設備投資の中で四半期売上高を更新
NVIDIAのCEOがトークン需要の指数関数的増加を指摘し、同社が設備投資拡大中に売上高記録を更新したことを報告。
エピローグ融合による効率的なカーネルの作成
機械学習におけるGEMM演算後のバイアスや活性化などの小規模処理を、レジスタ内で統合実行する「エピローグ融合」手法について解説。これによりグローバルメモリへの不要な読み書きを削減し、計算効率を向上させる技術的アプローチを示している。