AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業このサイトについてRSS
© 2026 ainew.jp
お問い合わせ特定商取引法に基づく表記
ニュース一覧元記事を開く
Vercel Blog·2026年6月24日 09:00·約1分で読める

AI Gateway で GLM 5.2 Fast が Wafer を経由して利用可能に

#LLM#GLM-5.2#Inference Optimization#Vercel AI Gateway#Serverless
TL;DR

Vercel は、GLM-5.2 Fast モデルを AI Gateway の Wafer エンジン上で提供開始し、小・大コンテキストおよびツール呼び出しにおいて他社比で 2 倍の処理スループットを実現したと発表した。

AI深層分析2026年6月24日 19:05
3
注目/ 5段階
深度40%
4
関連度30%
4
実用性20%
5
革新性10%
2

キーポイント

1

Wafer エンジンの性能向上

ベンチマークにより、小・大コンテキストおよびツール呼び出しシナリオにおいて、他社プロバイダと比較して 2 倍の高いスループットとデコード速度を達成した。

2

具体的な処理速度の数値

小コンテキストでは 170 トークン/秒以上、大コンテキストでは 200 トークン/秒以上の処理速度を記録し、持続的な生成でも高速なパフォーマンスを発揮する。

3

AI Gateway の機能と料金体系

統一 API による使用量追跡やコスト管理に加え、プロバイダ価格そのままの課金(マーカーなし)および BYOK 対応により、開発者の利便性と透明性を高めている。

影響分析・編集コメントを表示

影響分析

この発表は、GLM モデルの利用において、特に高速な推論と大規模コンテキスト処理を必要とするユースケースに対して、より高性能でコスト効率の良い選択肢を提供します。Vercel の AI Gateway が提供するインフラの最適化により、開発者はプロバイダ間のパフォーマンス差を意識せず、一貫した高品質なサービス展開が可能になります。

編集コメント

GLM モデルの高速化は実務的な価値が高く、特に大規模コンテキスト処理が必要なアプリケーション開発において即座に活用できる改善です。ただし、これは特定のインフラプロバイダ(Vercel)における最適化であり、他環境での性能差を考慮する必要があります。

GLM 5.2 Fast via Wafer が AI Gateway で利用可能になりました。

小コンテキスト、大コンテキスト、ツール呼び出しのシナリオにわたる独自のベンチマークに基づくと、サーバーレス環境で GLM-5.2 を提供する他のプロバイダーと比較して、Wafer は 2 倍の高いスループットを実現し、小・大コンテキストケースにおける持続的な生成において、デコード速度とエンドツーエンドの速度でリードしています。

テスト結果では、Wafer 上の GLM 5.2 Fast は以下のパフォーマンスを記録しました:

小コンテキスト: 170+ トークン/秒

大コンテキスト: 200+ トークン/秒

GLM 5.2 Fast を利用するには、AI SDK でモデルを zai/glm-5.2-fast に設定してください。

AI Gateway は、モデル呼び出しの統一 API、使用状況とコストの追跡、リトライ・フェイルオーバー・パフォーマンス最適化の設定を提供し、プロバイダー単体よりも高い稼働率を実現します。組み込みのカスタムレポート機能、ゼロデータ保持(Zero Data Retention)サポート、API キーごとの予算管理など、多くの機能を備えています。

AI Gateway はプロバイダーの価格をそのまま反映し、マージンを加算せず、推論時にもプラットフォーム料金を徴収しません。Bring Your Own Key (BYOK) リクエストにも同様に適用されます。

モデルプレイグラウンドで GLM 5.2 Fast をお試しください。

続きを読む

原文を表示

GLM 5.2 Fast via Wafer is now available on AI Gateway.

Based on our own benchmarking across small-context, large-context, and tool-call scenarios, Wafer delivers a 2x higher throughput than other providers serving GLM-5.2 on serverless, leading on decode and end-to-end speed for sustained generation in the small- and large-context cases.

In our testing, GLM 5.2 Fast on Wafer measured:

Small context: 170+ tok/s

Large context: 200+ tok/s

To use GLM 5.2 Fast, set model to zai/glm-5.2-fast in the AI SDK:

AI Gateway provides a unified API for calling models, tracking usage and cost, and configuring retries, failover, and performance optimizations for higher-than-provider uptime. It includes built-in custom reporting, Zero Data Retention support, budgets for API keys, and more.

AI Gateway reflects provider pricing with no markup and does not charge a platform fee on inference, including on Bring Your Own Key (BYOK) requests.

Try GLM 5.2 Fast in the model playground.

Read more

この記事をシェア

関連記事

The Zvi★32026年6月25日 20:34

AI #174:あなた自身こそが重要

Zvi氏の記事では、Fable の復旧見込みやNY-12選挙の結果に加え、GLM-5.2 が新世代の最良オープンモデルとなったと報告しています。ただしコストが高いため、ローカル実行が必要なエージェント用途に限定される可能性があります。

MarkTechPost★52026年6月24日 16:21

DFlash、NVIDIA Blackwell で最大 15 倍のスループット向上を実現する並列トークンブロックドラフト方式を提案

研究チームが開発した DFlash は、推論のボトルネックである逐次生成を改善し、小規模モデルで未来のトークンを並列にドラフトして大規模モデルが検証する手法により、NVIDIA Blackwell 上で最大 15 倍のスループット向上を実現しました。

Vercel Blog★42026年6月25日 22:00

AI SDK 7 の発表

Vercel は、週に 1600 万回のダウンロードがある TypeScript 製 AI SDK の新バージョン「7」を発表した。このアップデートにより、推論制御やツール承認機能など、エージェント開発の生産性を高める機能が強化された。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む