Vercel Blog·2026年6月24日 09:00·約1分で読める

AI Gateway で GLM 5.2 Fast が Wafer を経由して利用可能に

#LLM #GLM-5.2 #Inference Optimization #Vercel AI Gateway #Serverless

TL;DR

Vercel は、GLM-5.2 Fast モデルを AI Gateway の Wafer エンジン上で提供開始し、小・大コンテキストおよびツール呼び出しにおいて他社比で 2 倍の処理スループットを実現したと発表した。

AI深層分析2026年6月24日 19:05

注目/ 5段階

深度40%

キーポイント

Wafer エンジンの性能向上

ベンチマークにより、小・大コンテキストおよびツール呼び出しシナリオにおいて、他社プロバイダと比較して 2 倍の高いスループットとデコード速度を達成した。

具体的な処理速度の数値

小コンテキストでは 170 トークン/秒以上、大コンテキストでは 200 トークン/秒以上の処理速度を記録し、持続的な生成でも高速なパフォーマンスを発揮する。

AI Gateway の機能と料金体系

統一 API による使用量追跡やコスト管理に加え、プロバイダ価格そのままの課金（マーカーなし）および BYOK 対応により、開発者の利便性と透明性を高めている。

影響分析・編集コメントを表示

影響分析

この発表は、GLM モデルの利用において、特に高速な推論と大規模コンテキスト処理を必要とするユースケースに対して、より高性能でコスト効率の良い選択肢を提供します。Vercel の AI Gateway が提供するインフラの最適化により、開発者はプロバイダ間のパフォーマンス差を意識せず、一貫した高品質なサービス展開が可能になります。

編集コメント

GLM モデルの高速化は実務的な価値が高く、特に大規模コンテキスト処理が必要なアプリケーション開発において即座に活用できる改善です。ただし、これは特定のインフラプロバイダ（Vercel）における最適化であり、他環境での性能差を考慮する必要があります。

GLM 5.2 Fast via Wafer が AI Gateway で利用可能になりました。

小コンテキスト、大コンテキスト、ツール呼び出しのシナリオにわたる独自のベンチマークに基づくと、サーバーレス環境で GLM-5.2 を提供する他のプロバイダーと比較して、Wafer は 2 倍の高いスループットを実現し、小・大コンテキストケースにおける持続的な生成において、デコード速度とエンドツーエンドの速度でリードしています。

テスト結果では、Wafer 上の GLM 5.2 Fast は以下のパフォーマンスを記録しました：

小コンテキスト: 170+ トークン/秒

大コンテキスト: 200+ トークン/秒

GLM 5.2 Fast を利用するには、AI SDK でモデルを zai/glm-5.2-fast に設定してください。

AI Gateway は、モデル呼び出しの統一 API、使用状況とコストの追跡、リトライ・フェイルオーバー・パフォーマンス最適化の設定を提供し、プロバイダー単体よりも高い稼働率を実現します。組み込みのカスタムレポート機能、ゼロデータ保持（Zero Data Retention）サポート、API キーごとの予算管理など、多くの機能を備えています。

AI Gateway はプロバイダーの価格をそのまま反映し、マージンを加算せず、推論時にもプラットフォーム料金を徴収しません。Bring Your Own Key (BYOK) リクエストにも同様に適用されます。

モデルプレイグラウンドで GLM 5.2 Fast をお試しください。

原文を表示

GLM 5.2 Fast via Wafer is now available on AI Gateway.

Based on our own benchmarking across small-context, large-context, and tool-call scenarios, Wafer delivers a 2x higher throughput than other providers serving GLM-5.2 on serverless, leading on decode and end-to-end speed for sustained generation in the small- and large-context cases.

In our testing, GLM 5.2 Fast on Wafer measured:

Small context: 170+ tok/s

Large context: 200+ tok/s

To use GLM 5.2 Fast, set model to zai/glm-5.2-fast in the AI SDK:

AI Gateway provides a unified API for calling models, tracking usage and cost, and configuring retries, failover, and performance optimizations for higher-than-provider uptime. It includes built-in custom reporting, Zero Data Retention support, budgets for API keys, and more.

AI Gateway reflects provider pricing with no markup and does not charge a platform fee on inference, including on Bring Your Own Key (BYOK) requests.

Try GLM 5.2 Fast in the model playground.

この記事をシェア

The Zvi★32026年6月25日 20:34

AI #174：あなた自身こそが重要

Zvi氏の記事では、Fable の復旧見込みやNY-12選挙の結果に加え、GLM-5.2 が新世代の最良オープンモデルとなったと報告しています。ただしコストが高いため、ローカル実行が必要なエージェント用途に限定される可能性があります。

MarkTechPost★52026年6月24日 16:21

DFlash、NVIDIA Blackwell で最大 15 倍のスループット向上を実現する並列トークンブロックドラフト方式を提案

研究チームが開発した DFlash は、推論のボトルネックである逐次生成を改善し、小規模モデルで未来のトークンを並列にドラフトして大規模モデルが検証する手法により、NVIDIA Blackwell 上で最大 15 倍のスループット向上を実現しました。

Vercel Blog★42026年6月25日 22:00

AI SDK 7 の発表

Vercel は、週に 1600 万回のダウンロードがある TypeScript 製 AI SDK の新バージョン「7」を発表した。このアップデートにより、推論制御やツール承認機能など、エージェント開発の生産性を高める機能が強化された。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

Vercel Blog·2026年6月24日 09:00·約1分で読める

AI Gateway で GLM 5.2 Fast が Wafer を経由して利用可能に

#LLM #GLM-5.2 #Inference Optimization #Vercel AI Gateway #Serverless

TL;DR

AI深層分析2026年6月24日 19:05

注目/ 5段階

深度40%

キーポイント

Wafer エンジンの性能向上

具体的な処理速度の数値

AI Gateway の機能と料金体系

影響分析・編集コメントを表示

影響分析

編集コメント

GLM 5.2 Fast via Wafer が AI Gateway で利用可能になりました。

テスト結果では、Wafer 上の GLM 5.2 Fast は以下のパフォーマンスを記録しました：

小コンテキスト: 170+ トークン/秒

大コンテキスト: 200+ トークン/秒

GLM 5.2 Fast を利用するには、AI SDK でモデルを zai/glm-5.2-fast に設定してください。

モデルプレイグラウンドで GLM 5.2 Fast をお試しください。

原文を表示

GLM 5.2 Fast via Wafer is now available on AI Gateway.

In our testing, GLM 5.2 Fast on Wafer measured:

Small context: 170+ tok/s

Large context: 200+ tok/s

To use GLM 5.2 Fast, set model to zai/glm-5.2-fast in the AI SDK:

AI Gateway reflects provider pricing with no markup and does not charge a platform fee on inference, including on Bring Your Own Key (BYOK) requests.

Try GLM 5.2 Fast in the model playground.

この記事をシェア

The Zvi★32026年6月25日 20:34

AI #174：あなた自身こそが重要

MarkTechPost★52026年6月24日 16:21

DFlash、NVIDIA Blackwell で最大 15 倍のスループット向上を実現する並列トークンブロックドラフト方式を提案

Vercel Blog★42026年6月25日 22:00

AI SDK 7 の発表

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

AI Gateway で GLM 5.2 Fast が Wafer を経由して利用可能に

キーポイント

影響分析

編集コメント

関連記事

AI Gateway で GLM 5.2 Fast が Wafer を経由して利用可能に

キーポイント

影響分析

編集コメント

関連記事