#推論速度 のAIニュース
3件の記事
DiffusionGemma:テキスト生成が4倍高速化(5分読了)
Google の DiffusionGemma は、26B モデルの MoE 構造を採用し、テキストブロックを並列生成することで GPU 上で最大4倍の速度向上を実現しました。このモデルは低遅延と双方向アテンションを特徴とし、量子化により高価なコンシューマー向け GPU でも動作可能ですが、標準モデルと比較して品質が若干低下します。
TLDR AI·6月11日·★★★★
中国のシャオミ製「MiMo」が ChatGPT や Claude よりも 15 倍高速に
シャオミと推論パートナーの TileRT は、標準的な 8 GPU ノードで秒間 1,000 トークンの推論速度を実現する 1 兆パラメータモデル「MiMo-V2.5-Pro-UltraSpeed」を開発した。この高速化は FP4 量子化と DFlash 推測デコーディング技術によるもので、6 月 9 日から 23 日までの限定 API 試験で利用可能となる。
TLDR AI·6月9日·★★★★
Claude Opus 4.7 の高速モードが研究プレビューとして利用可能に
Anthropic は、API や Claude Code、および Cursor などの開発ツールにおいて、Claude Opus 4.7 の高速モードを研究プレビューとして提供開始した。この機能は現在オプトイン制だが、将来的にはデフォルト設定となる予定である。
TLDR AI·5月13日·★★★★