#gpu 最適化 のAIニュース

3件の記事

NVIDIA NeMo AutoModelによるTransformersの微調整加速

NVIDIAはHugging FaceでNeMo AutoModelを公開し、Qwen3やDeepSeek V3のような大規模Mixture-of-Expertsアーキテクチャの微調整パイプラインを最適化した。同フレームワークはExpert ParallelismとDeepEP融合通信カーネルを導入し、GPUクラスター上で専門的なエキスパート重みを動的に分散させることで、トレーニングスループットを最大3.7倍向上させ、ピークGPUメモリ使用量を32%削減した。

TLDR AI·6月25日·★★★★

MoonMath AI、AMD MI300X向けHIPアテンションカーネルをオープンソース化し、AIter v3を上回る性能を発揮

MoonMath AIチームが、AMDのMI300X GPU向けにHIP言語で記述されたbf16フォワードアテンションカーネルをMITライセンスで公開した。同チームは、このカーネルがAMD公式の最適化カーネル「AIter v3」を上回る性能を示したと報告している。

MarkTechPost·6月22日·★★★★

Flash-KMeans の紹介:GPU で FAISS よりも 200 倍以上高速に動作する IO 対応型 K-Means アルゴリズム

カリフォルニア大学バークレー校とオースティン大学の研究チームは、現代の AI パイプライン向けに設計されたオープンソースライブラリ「Flash-KMeans」を発表した。この新技術は計算式を変更せず IO 効率を最適化することで、GPU 上で FAISS よりも 200 倍以上高速な K-Means 処理を実現する。

MarkTechPost·6月15日·★★★★