#llm inference のAIニュース
4件の記事
適応型並列推論:効率的な推論スケーリングの新たなパラダイム
カリフォルニア大学バークレー校の研究チームは、思考プロセスを動的に分割・統合する「適応型並列推論」手法を発表し、大規模言語モデルの推論効率と速度を大幅に向上させる新パラダイムを確立した。
Berkeley AI Research·5月8日·★★★★
TokenSpeed:エージェントワークロード向け光速 LLM 推論エンジン
NVIDIA DevTech と共同開発された高性能推論エンジン「TokenSpeed」は、コンパイラ支援モデル機構とスケジューラーを活用し、コーディングエージェントの処理速度を TensorRT-LLM より向上させ、遅延を大幅に削減します。
TLDR AI·5月7日·★★★★
Google TPU上でLLM推論を高速化:拡散型予測デコーディングによる3倍の速度向上を実現
UCSD(カリフォルニア大学サンディエゴ校)の研究チームは、Google TPU上でブロック拡散型予測デコーディング手法「DFlash」を実装し、従来の逐次推論のボトルネックを克服して推論速度を3倍に向上させることに成功した。
Google Developers AI·5月4日·★★★★
推論が AI チップ新興企業に再び市場参入の機会をもたらす
AI の焦点がモデル学習から推論へ移行する中、Nvidia の独占を打破するため、AI 新興企業が推論ワークロードの多様性を活用して独自のニッチ市場を開拓しようとしている。
The Register AI/ML·5月3日·★★★★