1件の記事
NVIDIA DevTech と共同開発された高性能推論エンジン「TokenSpeed」は、コンパイラ支援モデル機構とスケジューラーを活用し、コーディングエージェントの処理速度を TensorRT-LLM より向上させ、遅延を大幅に削減します。