#gpu最適化 のAIニュース
19件の記事
ワープデコードによるMoEモデル推論の改善
研究チームが、Mixture of Experts(MoE)モデルの推論効率を向上させる「ワープデコード」技術を開発した。この技術は、複数の専門家モデルを効率的に処理することで、推論速度とリソース使用率を改善する。
本日の主な出来事
GoogleはChromeにGemini連携の「Skills」機能を導入。Tencentは3D世界モデル「HYWorld 2.0」を公開し、Google DeepMindはロボット用「Gemini Robotics-ER 1.6」をリリース。OpenAIもセキュリティ強化版モデルを発表した。
Together AIのカーネルチーム内覧
Together AIのカーネル研究チームは、FlashAttentionやThunderKittensの開発者であり、GPUハードウェアと本番環境のAIとの間のギャップを埋める役割を果たしている。
ScaleOpsがAI需要高騰の中、コンピューティング効率向上のために1億3000万ドルを調達
ScaleOpsがリアルタイムでインフラを自動化し、GPU不足とAIクラウドコスト高騰に対処するため、1億3000万ドルの資金調達を実施した。
未使用GPUワークロードを統合してAIインフラのスループットを最大化する
NVIDIAが、Kubernetes環境でモデル要件とGPUサイズの不一致による非効率性を解消するため、未使用GPUワークロードを統合する手法を提案している。
Kubernetes上での分散型LLM推論ワークロードのデプロイ
NVIDIAが、大規模言語モデル(LLM)推論ワークロードの複雑化に対応するため、Kubernetes上でプリフィル段階とデコード段階を分離した分散型推論アーキテクチャを提案している。
Niv-AIがステルスモードを脱し、GPUの電力パフォーマンス向上を目指す
Niv-AIが1200万ドルのシード資金を調達し、GPUの電力サージを測定・管理する技術を開発している。
トークンを流し続ける:16のオープンソースRLライブラリからの教訓
研究者が16のオープンソース強化学習ライブラリを分析し、効率的なトークン管理と学習安定化のための実践的な知見を共有した。
ユリシーズ・シーケンス並列処理:100万トークンのコンテキストでのトレーニング
研究者らが、ユリシーズ・シーケンス並列処理という手法を開発し、100万トークンの長いコンテキストで大規模言語モデルを効率的にトレーニングできるようにした。
NVIDIA CUDA TileにおけるFlash Attentionのピークパフォーマンス調整
NVIDIAが、現代AIの重要なワークロードであるFlash Attentionの実装方法と、CUDA Tileを使用した最適化テクニックを解説している。
NVIDIA GPUアクセラレーテッドエンドポイントを使用したQwen3.5 VLMによるネイティブマルチモーダルエージェントの開発
Alibabaが約4000億パラメータのネイティブマルチモーダルエージェント向けに設計されたオープンソースQwen3.5シリーズを発表した。
ウルリセス解放:通信と計算の重なりに関する実験
動画拡散モデルのコンテキスト長増大に対応するため、Ulysses手法を用いたコンテキスト並列処理が提案された。これはシーケンス全体をシャードし、高密度アテンションと高スループット通信を両立させる。
NVIDIA Multi-Instance GPUとNUMAノードローカライゼーションによるデータ処理の高速化
NVIDIAのMIG技術とNUMAノード最適化を組み合わせ、GPUリソースの効率的な分割とメモリアクセス最適化により、AI/機械学習ワークロードのデータ処理速度を向上させる手法を紹介。
NVIDIA CUDA.computeでGPU MODEカーネルリーダーボードをトップに
NVIDIAのCUDA.computeがGPU MODEカーネルリーダーボードで最高性能を達成したことを紹介する技術記事。
CodexとClaudeによるすべてのためのカスタムカーネル
CodexとClaudeが提供するカスタムカーネルにより、あらゆるユーザーがAIモデルを自身のニーズに合わせて最適化できるようになります。
Tritonにおけるインライン要素別アセンブリによる命令レベルの制御
TritonはGPUカーネル作成を簡素化するDSLだが、詳細な制御が必要な場合の課題がある。本記事は、インライン要素別アセンブリ(Inline Elementwise ASM)を用いて、Triton内で命令レベルの細かな制御を行う手法を紹介している。
GPU上の推論サーバーのパフォーマンスチューニング方法
ヤフーの画像認識技術研究者が、GPU上の推論サーバーのパフォーマンスチューニング方法について解説する。
ナノチャットのオーケストレーション:モデルのトレーニング
DagsterがRunPod上でLLMトレーニングの各段階を調整し、再現性・拡張性・GPU効率性を確保する方法を示している。
vLLMと大規模モデル
vLLMは大規模言語モデルの推論速度と効率を向上させる推論エンジンであり、AI業界で注目されている技術です。