#llm inference のAIニュース

4件の記事

適応型並列推論：効率的な推論スケーリングの新たなパラダイム

カリフォルニア大学バークレー校の研究チームは、思考プロセスを動的に分割・統合する「適応型並列推論」手法を発表し、大規模言語モデルの推論効率と速度を大幅に向上させる新パラダイムを確立した。

NVIDIA DevTech と共同開発された高性能推論エンジン「TokenSpeed」は、コンパイラ支援モデル機構とスケジューラーを活用し、コーディングエージェントの処理速度を TensorRT-LLM より向上させ、遅延を大幅に削減します。

UCSD（カリフォルニア大学サンディエゴ校）の研究チームは、Google TPU上でブロック拡散型予測デコーディング手法「DFlash」を実装し、従来の逐次推論のボトルネックを克服して推論速度を3倍に向上させることに成功した。

AI の焦点がモデル学習から推論へ移行する中、Nvidia の独占を打破するため、AI 新興企業が推論ワークロードの多様性を活用して独自のニッチ市場を開拓しようとしている。