#gpu最適化のAIニュース

19件の記事

ワープデコードによるMoEモデル推論の改善

研究チームが、Mixture of Experts（MoE）モデルの推論効率を向上させる「ワープデコード」技術を開発した。この技術は、複数の専門家モデルを効率的に処理することで、推論速度とリソース使用率を改善する。

本日の主な出来事

GoogleはChromeにGemini連携の「Skills」機能を導入。Tencentは3D世界モデル「HYWorld 2.0」を公開し、Google DeepMindはロボット用「Gemini Robotics-ER 1.6」をリリース。OpenAIもセキュリティ強化版モデルを発表した。

Smol AI News·4月6日

Together AIのカーネルチーム内覧

Together AIのカーネル研究チームは、FlashAttentionやThunderKittensの開発者であり、GPUハードウェアと本番環境のAIとの間のギャップを埋める役割を果たしている。

Together AI Blog·4月1日·★★★★

ScaleOpsがAI需要高騰の中、コンピューティング効率向上のために1億3000万ドルを調達

ScaleOpsがリアルタイムでインフラを自動化し、GPU不足とAIクラウドコスト高騰に対処するため、1億3000万ドルの資金調達を実施した。

TechCrunch AI·3月30日·★★★★

未使用GPUワークロードを統合してAIインフラのスループットを最大化する

NVIDIAが、Kubernetes環境でモデル要件とGPUサイズの不一致による非効率性を解消するため、未使用GPUワークロードを統合する手法を提案している。

NVIDIA Developer Blog·3月26日

Kubernetes上での分散型LLM推論ワークロードのデプロイ

NVIDIAが、大規模言語モデル（LLM）推論ワークロードの複雑化に対応するため、Kubernetes上でプリフィル段階とデコード段階を分離した分散型推論アーキテクチャを提案している。

NVIDIA Developer Blog·3月23日·★★★★

Niv-AIがステルスモードを脱し、GPUの電力パフォーマンス向上を目指す

Niv-AIが1200万ドルのシード資金を調達し、GPUの電力サージを測定・管理する技術を開発している。

TechCrunch AI·3月17日·★★★★

トークンを流し続ける：16のオープンソースRLライブラリからの教訓

研究者が16のオープンソース強化学習ライブラリを分析し、効率的なトークン管理と学習安定化のための実践的な知見を共有した。

Hugging Face Blog·3月10日·★★★★

ユリシーズ・シーケンス並列処理：100万トークンのコンテキストでのトレーニング

研究者らが、ユリシーズ・シーケンス並列処理という手法を開発し、100万トークンの長いコンテキストで大規模言語モデルを効率的にトレーニングできるようにした。

Hugging Face Blog·3月9日·★★★★

NVIDIA CUDA TileにおけるFlash Attentionのピークパフォーマンス調整

NVIDIAが、現代AIの重要なワークロードであるFlash Attentionの実装方法と、CUDA Tileを使用した最適化テクニックを解説している。

NVIDIA Developer Blog·3月5日

NVIDIA GPUアクセラレーテッドエンドポイントを使用したQwen3.5 VLMによるネイティブマルチモーダルエージェントの開発

Alibabaが約4000億パラメータのネイティブマルチモーダルエージェント向けに設計されたオープンソースQwen3.5シリーズを発表した。

NVIDIA Developer Blog·2月28日·★★★★

ウルリセス解放：通信と計算の重なりに関する実験

動画拡散モデルのコンテキスト長増大に対応するため、Ulysses手法を用いたコンテキスト並列処理が提案された。これはシーケンス全体をシャードし、高密度アテンションと高スループット通信を両立させる。

fal.ai Blog·2月24日·★★★★

NVIDIA Multi-Instance GPUとNUMAノードローカライゼーションによるデータ処理の高速化

NVIDIAのMIG技術とNUMAノード最適化を組み合わせ、GPUリソースの効率的な分割とメモリアクセス最適化により、AI/機械学習ワークロードのデータ処理速度を向上させる手法を紹介。

NVIDIA Developer Blog·2月20日·★★★★

NVIDIA CUDA.computeでGPU MODEカーネルリーダーボードをトップに

NVIDIAのCUDA.computeがGPU MODEカーネルリーダーボードで最高性能を達成したことを紹介する技術記事。

NVIDIA Developer Blog·2月19日·★★★★

CodexとClaudeによるすべてのためのカスタムカーネル

CodexとClaudeが提供するカスタムカーネルにより、あらゆるユーザーがAIモデルを自身のニーズに合わせて最適化できるようになります。

Hugging Face Blog·2月13日·★★★★

Tritonにおけるインライン要素別アセンブリによる命令レベルの制御

TritonはGPUカーネル作成を簡素化するDSLだが、詳細な制御が必要な場合の課題がある。本記事は、インライン要素別アセンブリ（Inline Elementwise ASM）を用いて、Triton内で命令レベルの細かな制御を行う手法を紹介している。

fal.ai Blog·2月11日

GPU上の推論サーバーのパフォーマンスチューニング方法

ヤフーの画像認識技術研究者が、GPU上の推論サーバーのパフォーマンスチューニング方法について解説する。

LY Corp Tech Blog·2月9日

ナノチャットのオーケストレーション：モデルのトレーニング

DagsterがRunPod上でLLMトレーニングの各段階を調整し、再現性・拡張性・GPU効率性を確保する方法を示している。

Dagster Blog·12月9日

vLLMと大規模モデル

vLLMは大規模言語モデルの推論速度と効率を向上させる推論エンジンであり、AI業界で注目されている技術です。

Hamel Husain·10月28日

#gpu最適化 のAIニュース