#推論速度のAIニュース

3件の記事

DiffusionGemma：テキスト生成が4倍高速化（5分読了）

Google の DiffusionGemma は、26B モデルの MoE 構造を採用し、テキストブロックを並列生成することで GPU 上で最大4倍の速度向上を実現しました。このモデルは低遅延と双方向アテンションを特徴とし、量子化により高価なコンシューマー向け GPU でも動作可能ですが、標準モデルと比較して品質が若干低下します。

TLDR AI·6月11日·★★★★

中国のシャオミ製「MiMo」が ChatGPT や Claude よりも 15 倍高速に

シャオミと推論パートナーの TileRT は、標準的な 8 GPU ノードで秒間 1,000 トークンの推論速度を実現する 1 兆パラメータモデル「MiMo-V2.5-Pro-UltraSpeed」を開発した。この高速化は FP4 量子化と DFlash 推測デコーディング技術によるもので、6 月 9 日から 23 日までの限定 API 試験で利用可能となる。

TLDR AI·6月9日·★★★★

Claude Opus 4.7 の高速モードが研究プレビューとして利用可能に

Anthropic は、API や Claude Code、および Cursor などの開発ツールにおいて、Claude Opus 4.7 の高速モードを研究プレビューとして提供開始した。この機能は現在オプトイン制だが、将来的にはデフォルト設定となる予定である。

TLDR AI·5月13日·★★★★

#推論速度 のAIニュース

DiffusionGemma：テキスト生成が4倍高速化（5分読了）

中国のシャオミ製「MiMo」が ChatGPT や Claude よりも 15 倍高速に

Claude Opus 4.7 の高速モードが研究プレビューとして利用可能に

#推論速度のAIニュース