#quantization のAIニュース
4件の記事
KV キャッシュ圧縮競争:TurboQuant、OSCAR、EpiCache の比較
MarkTechPost は、長文コンテキストを持つ大規模言語モデルにおけるメモリボトルネックを解消する KV キャッシュ圧縮技術の最新動向について、TurboQuant、OSCAR、EpiCache の各手法を比較分析している。
MarkTechPost·6月18日·★★★★
シャオミのMiMoとTileRTが汎用GPU上で1兆パラメータモデルを秒間1000トークン超で推論
シャオミのMiMoチームとTileRTシステムグループは、汎用GPU上で1兆パラメータ規模のモデルを秒間1000トークン超(最大約1200)で推論する新技術「MiMo-V2.5-Pro-UltraSpeed」を発表した。
MarkTechPost·6月9日·★★★★★
TurboQuant:圧縮とパフォーマンスは hype に値するか?
KDnuggets が、機械学習モデルの圧縮技術「TurboQuant」の実効性を検証し、その性能向上が期待されたほどの価値があるかどうかを評価している。
KDnuggets·5月15日·★★★★
Blackwell上で6TB/s超を達成するMXFP8量子化器
CuTeDSLを用いたMXFP8量子化器が、Blackwell B200上で6TB/s超の処理速度を達成した。スケールファクターを直接書き込むことで、後続のGEMM処理における追加パックステップを省略し、効率化した。
fal.ai Blog·1月28日·★★★★