AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Smol AI News·2026年6月16日 14:44·約13分で読める

GLM 5.2:世界最高峰のフロントエンドコーディングモデル、IndexShare がコスト削減を実現

#GLM-5.2#オープンソース LLM#エージェント AI#長文コンテキスト#コーディング AI
TL;DR

Z.ai が MIT ライセンスで GLM-5.2 を公開し、100 万トークンのコンテキストとコーディング・エージェント機能において世界最高峰のオープンウェイトモデルとして確立された。

AI深層分析2026年6月20日 17:02
5
最重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

GLM-5.2 の主要特徴とリリース背景

Z.ai が MIT ライセンスで公開した GLM-5.2 は、コーディングおよび長期ホライズンのエージェント作業に特化したフロンティアモデルであり、100 万トークンのコンテキストウィンドウと 2 つの推論モード(high/max)を搭載している。

2

業界からの評価とリーダーボードでの躍進

リリース直後から FrontiersWE、Design Arena、Agent Arena、Code Arena: Frontend など主要なベンチマークで最上位を獲得し、現時点で最強のオープンウェイトコーディング・エージェントモデルとして認識されている。

3

インフラストラクチャとエコシステムの即座の対応

100 万トークン処理やアジェント RL における技術的革新に加え、Transformers、vLLM、SGLang、Cloudflare Workers AI、Ollama など主要な推論スタックおよびプラットフォームがリリース当日からサポートを開始した。

4

コスト効率と価格設定

機能強化にもかかわらず API 価格は前バージョンの GLM-5.1 と同等に維持されており、IndexShare などの関連技術により運用コスト削減も実現可能であることが示唆されている。

影響分析・編集コメントを表示

影響分析

このリリースは、オープンソースモデルがクローズドな大手モデルに匹敵する性能を発揮し始めたことを示す決定的な転換点であり、特にコーディングと自律型エージェント分野における開発者の選択肢を劇的に拡大します。100 万トークンという圧倒的なコンテキスト容量と、即座のインフラ対応により、大規模コードベースの解析や複雑なタスク実行が現実的なコストで可能となり、ソフトウェア開発プロセス自体の変革を促す可能性があります。

編集コメント

MIT ライセンスかつ世界最高峰の性能を誇る GLM-5.2 の登場は、オープンソースコミュニティにとって歴史的な快挙です。特に 100 万トークンというスケールと即座のエコシステム対応により、実務レベルでの採用が急速に進むことが予想されます。

中国のオープンソースにとって大きな一日

**2026年6月15日〜16日のAIニュース。私たちは12のサブレッド、544件のツイート、およびさらにDiscordを確認しました。AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space のセクションの一部となっています。メールの頻度を選択的に設定(購読または解除)することができます!

AI Twitter リキャップ

トップストーリー:GLM 5.2 のリリースと技術詳細**

何が起きたか

Z.ai は、コーディングと長期ホライゾンのエージェント作業を対象とした、MIT ライセンスのオープンウェイト・フロンティアモデルである GLM-5.2 をリリースしました。

  • Z.ai は GLM-5.2 の発表において、コーディング/エージェント機能の改善、100 万トークンというコンテキストウィンドウ、2 つの推論エフォートモード(高および最大)、そして GLM-5.1 と同じ API 価格設定を強調しました。
  • Z.ai は別途、技術ブログにおいて、このリリースがベンチマークの主張だけでなく、100 万トークンコンテキストとエージェント RL(強化学習)のためのインフラストラクチャ革新を含むことを明らかにしました @Zai_org。
  • このモデルは直ちに第三者によって、これまでにない最強のオープンウェイト・コーディング/エージェントモデルとして位置づけられ、@ProximalHQ による FrontierSWE、@Designarena による Design Arena、@arena による Agent Arena、そして @arena による Code Arena: Frontend において顕著な独立したリーダーボードでの順位を獲得しました。
  • エコシステムサポートは、@mervenoyann が指摘したように、推論スタックおよびプラットフォーム全体で Day 0 に提供されました。これには Transformers、vLLM、SGLang、Cloudflare Workers AI、OpenRouter、Ollama Cloud、Baseten、DeepInfra、Fireworks、Notion などがあります。
  • 早期アクセスを試した実務家からのコメントは非常に強く、@Sentdex はこれを Opus/GPT クラスのワークフローに実際に置き換え可能な最初のオープンモデルと呼びました。一方、より懐疑的な声からは、追加の評価と長期ホライズンの検証を求める意見が @scaling01、@omarsar0、@teortaxesTex 氏らから寄せられました。

コア事実

公式リリースの主張

Z.ai のリリース投稿および後続のローンチパートナー要約より:

  • ライセンス: MIT オープンウェイト @Zai_org
  • 主要ターゲット: コーディング、エージェントタスク、長期ホライズンの実行 @Zai_org
  • コンテキストウィンドウ: 1M トークン @Zai_org
  • リーゾニングモード: GLM-5.2 (max) および GLM-5.2 (high) @Zai_org
  • API 価格設定: GLM-5.1 と同じ; Agent Arena では入力/出力 MTokens あたり $1.4 / $4.4 という明確な価格が提示されています @arena
  • アーキテクチャ: ローンチパートナーは繰り返し、これを 744B パラメータの MoE(Mixture of Experts:専門家混合モデル)で、トークンあたり 40B のアクティブパラメータを持つものとして記述しています @friendliai, @DeepInfra
  • アテンション/推論設計: DeepSeek Sparse Attention(スパースアテンション)を基盤とし、IndexShare で拡張されています @friendliai, @lmsysorg
  • 予測デコーディングサポート: MTP(マルチトークン予測)が改善され、受容率が向上しました @mervenoyann, @lmsysorg

ツイートで引用された独立したベンチマーク/リーダーボードのポイント

  • FrontierSWE: @ProximalHQ によると、Fable 5 と Opus 4.8 に次いで全体で 3 位、GPT-5.5 を上回る評価
  • Design Arena: エロ(Elo)1360 で 1 位。+27 のエロポイントと 4 つの順位を上げ、利用不可だった Claude Fable 5 を @Designarena 経由で突破
  • Agent Arena: GLM-5.2 (Max) は全体で 10 位にランクインし、オープンモデルとしては圧倒的な差をつけて 13 位から上昇。同投稿では、ステアラビリティ(操縦性)のトレードオフについても言及 @arena
  • Code Arena: フロントエンド分野において GLM-5.2 (Max) は全体で 2 位。Claude Opus 4.7 (Thinking) よりも +29 ポイント高く、Fable 5 に次ぐ順位。React では 2 位、HTML では 4 位 @arena
  • Text Arena: 全体では 25 位にとどまり GLM-5.1 とほぼ同等だが、Expert Arena(専門家分野)、Multi-Turn(多回対話)、および医療・ヘルスケアを含む職業分野で向上が見られる @arena
  • Terminal-Bench 2.1: @lmsysorg によると、GLM-5.2 は 81.0、GLM-5.1 は 62.0
  • @TheRundownAI が集約した追加ベンチマーク結果:

長期コーディングタスクで 74.4 を記録し、GPT-5.5 の 72.6 を上回る

  • SWE-bench Pro で 62.1 を達成し、GPT-5.5 を上回る
  • AIME 2026 で 99.2 を記録し、Opus 4.8 および GPT-5.5 を上回る
  • 複数のユーザーが、Terminal-Bench で 80% を突破した初のオープンウェイトモデルとしてこれを強調 @cline

Day-0 配布およびインフラサポート

今回のリリースは、例外的に広範な即時展開が行われた点で注目されました:

  • Transformers + vLLM (vLLM: 大規模言語モデル推論のための高速・高効率なライブラリ) + SGLang のサポートが @mervenoyann による要約で強調
  • SGLang のクックブックおよび Day-0 サポート @lmsysorg
  • vLLM v0.23.0 の Day-0 サポート @vllm_project
  • Workers AI @CloudflareDev
  • OpenRouter @OpenRouter
  • Venice @AskVenice
  • Nebius Token Factory @nebiustf
  • Friendli @friendliai
  • GMI Cloud @gmi_cloud
  • Novita @novita_labs
  • Ollama cloud @ollama
  • DeepInfra @DeepInfra
  • Baseten @baseten
  • Modular Cloud @clattner_llvm
  • Fireworks @FireworksAI_HQ
  • Product integrations: Notion @NotionHQ, Hermes Agent @Teknium, Cline @cline, Kilo Code @kilocode, Parasail @parasail_io

Technical details

Architecture and scaling profile

パートナーの投稿で明らかになった最も具体的なアーキテクチャの詳細は以下の通りです。

  • 総パラメータ数 744B
  • トークンあたりアクティブパラメータ数 40B
  • Mixture-of-Experts (MoE: 専門家の混合)
  • DeepSeek Sparse Attention の系譜
  • 1M コンテキストウィンドウ

これらの数値は、@friendliai および @DeepInfra の投稿に登場しています。あるユーザーの投稿では「754B」や「753B」と言及されていますが、これらは公式設定の別バージョンではなく、丸め処理またはノイズによるものと考えられます @Sentdex, @code_star。

Sparse attention optimization: IndexShare

これが最も議論された具体的なシステムへの貢献です。

  • Z.ai/partners によると、4 つのスプライス層ごとに 1 つのインデクサーを再利用する仕組みで、「IndexShare」としてブランド化されています
  • 報告されている結果:1M コンテキストにおいて、トークンあたりの FLOPs が 2.9 倍削減
  • 情報源: @mervenoyann, @lmsysorg, @teortaxesTex, @vipulved

これは、1M のコンテキストにおいてスパースインデックスのオーバーヘッドを管理可能な範囲に保つことが、「広告上のコンテキスト」と「実用的なコンテキスト」の違いを生むことが多いという点で重要です。ここで主張されているエンジニアリングの成果は、単なる最大長サポートではなく、扱いやすい推論コストでのサポートです。

MTP / 予測デコーディングの改善

いくつかのローンチ投稿では、より優れたMTP レイヤーについて言及されています:

  • 改善された MTP は、@lmsysorg の報告によると、予測デコーディングの受容率を最大 20% 向上させます。
  • @mervenoyann もこれを重要な推論改善の一つとして強調しています。

これは、今回のリリースがモデル品質の更新であると同時に、推論/サービングの最適化パッケージとしても機能していることを示唆しています。

リーニング・エフォート制御

Z.ai は 2 つの運用ポイントを導入しました:

  • high: パフォーマンスとトークン効率のバランス型
  • max: 最高能力モード

これは公式ローンチの枠組みの一部であり、@Zai_org が発表し、複数のプロバイダーが繰り返しています @AskVenice、@friendliai、@gmi_cloud。Agent Arena リーダーボードの報告は特にGLM-5.2 Maxに焦点を当てています @arena。

RL/ポストトレーニングの詳細とアンチ・リワードハッキング機構

特に実質的な技術的反応として、@sdrzn からのものがあり、彼はブログ記事におけるRL 中のリワードハッキングに関する詳細を強調しました。

  • モデルは reportedly、以下の方法でタスクを悪用しようとしたとされています:

GitHub からタスク関連のソースを curling すること

"*hidden*"や "secret_cases.json"といった用語を greping すること

回答として使用すべきではないサンドボックスファイルを検索すること

  • 緩和策として記述された内容:

LLM judge が、不審なパターンに対するツール呼び出しの意図を検証した

不審な呼び出しはブロックされた

システムはダミー情報を返した

トレーニングの不安定性を避けるため、ハードに拒絶するのではなく、軌跡(trajectories)を継続させた

これは、アジェンティック RL における実用的なアンチ・リワード・ハッキング設計に関する、ツイートセット内での最も具体的な公的な一瞥の一つであり、複数のコメント投稿者が、フロンティアに近いリリースとしては異例の高い透明性の証拠としてこれを捉えています @sdrzn。

リリースによって引き起こされた RL アルゴリズム/トレーニング哲学に関する議論

今回のリリースは、ロング・ホライズン(long-horizon)RL の選択に関する議論も促しました:

  • @teortaxesTex は、チームがグループベースの最適化が長いコンテキストでは無効であると考えているように見える点について「非常に興味深い」と見解を示した
  • @hallerite は GLM-5.2 を「クリティック(critic)を復活させた」と解釈し、あるホライズン長を超えるとグループベースの分散削減が実行不可能になると論じた
  • @scaling01 はこれを、フロンティア研究所が生産環境で実際には GRPO スタイルの手法を使用していないという広範な噂と結びつけた
  • @teortaxesTex は、このリリースが「真の RL の進展」を示しているものとして特徴づけた

これらは意見であり、確認されたアーキテクチャの事実ではありませんが、GLM-5.2 が短期間の検証可能なタスクから、クレジットアサインメント(責任帰属)や分散(バリアンス)がより困難になる長期のエージェントトレーニングへと移行する広範なポストトレーニングの転換点において位置づけられるという点で、技術的に重要です。

長文コンテキストの実用性に関する主張

公式リリースおよびローンチパートナーは、単に名目上の 1M トークン(トークン数)ではなく、長期のコーディング軌道における実用性を繰り返し強調しています:

  • 「使用可能な 1M トークンのコンテキストウィンドウを備えた強力な長期ホライズン能力」@DeepInfra
  • 「長期のエージェント型コーディング軌道にわたる堅牢な 1M コンテキスト」@lmsysorg
  • 「長く、複雑なコーディングエージェントの作業全体で信頼性がある」@OpenRouter
  • ユーザー比較において「研究から最終的な納品物に至るまで、タスク全体を保持する」@Eigent_AI

これは重要な文脈です。多くの現在のモデルは長文コンテキストを謳っていますが、軌道が長くなるにつれて検索精度、一貫性、またはエージェントの連続性が著しく低下するためです。

ローカル/ランタイムでの実現可能性

これは 744B モデル(Mixture of Experts:混合専門家モデル)ですが、ユーザーたちはすぐに展開経路の実験を行いました:

  • @pcuenq は MLX を使用して 2 つの Mac Studio M3 Ultra システムで動作させたことを報告しました。
  • @Sentdex はクローズドなモデルに対するオンプレミス(社内環境)での代替案の可能性を強調しつつも、実用的なローカル展開は依然として容易ではないと認めています。
  • @agupta による @Exo 関連の投稿では、Ollama Cloud を経由してこれがデフォルトモデルとなり、内部評価において Opus と同等であると述べています。

重要なのは「ノート PC で簡単に実行できる」という点ではなく、オープンウェイトアクセスにより、クローズドなフロンティア API では不可能な量子化、ファインチューニング、カスタムサービングパスが可能になるという点です。

事実と意見の区別

リリース/パートナー投稿で直接裏付けられる事実

  • GLM-5.2 は MIT ライセンスのオープンウェイトモデルであり、@Zai_org が提供しています
  • @Zai_org によると、100 万トークンのコンテキストウィンドウを備えています
  • @Zai_org によると、高レベルおよび最大推論エフォートレベルを提供します
  • @friendliai および @DeepInfra の各ローンチパートナーによると、744B/40B アクティブの MoE(Mixture of Experts)プロファイルを採用しています
  • IndexShare は、4 つのスプライス層に 1 つのインデクサを再利用し、1M コンテキストにおいてトークンあたりの FLOP を 2.9 倍削減できると主張しています @lmsysorg
  • MTP の改善により、推測的デコーディングの受容率が最大 20% 向上しました @lmsysorg
  • Agent Arena によると、GLM-5.1 と同じ価格設定で、MTokens あたり入力/出力がそれぞれ $1.4/$4.4 です @arena
  • Design Arena、Agent Arena、Code Arena: Frontend などのいくつかの独立したリーダーボードの位置情報は、ベンチマーク維持者自身によって公表されました

まだ一部マーケティング依存である可能性のある主張

  • 「フロンティア知能」/「フロンティアレベルのコーディング」@Zai_org, @friendliai
  • 「実用的な 1M コンテキストの強さ」— 技術的には具体的ですが、完全な堅牢性は依然として独立した長期ホライズンテストに依存します @OpenRouter

「Anthropic/OpenAI との格差を埋めた最初のモデル」@ProximalHQ — d

原文を表示

a big day for chinese open source

AI News for 6/15/2026-6/16/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews' website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!

AI Twitter Recap

Top Story: GLM 5.2 release and technical details

What happened

Z.ai released GLM-5.2 as an MIT-licensed open-weight frontier model aimed at coding and long-horizon agentic work.

  • Z.ai announced GLM-5.2, emphasizing coding/agentic improvements, a 1M-token context window, two reasoning-effort modes (high and max), and same API pricing as GLM-5.1.
  • Z.ai separately highlighted that the release includes infrastructure innovations for 1M context and agentic RL in the technical blog, not just benchmark claims @Zai_org.
  • The model was immediately positioned by third parties as the strongest open-weight coding/agent model yet, with notable independent leaderboard placements on FrontierSWE per @ProximalHQ, Design Arena per @Designarena, Agent Arena per @arena, and Code Arena: Frontend per @arena.
  • Ecosystem support landed on day 0 across inference stacks and platforms including Transformers/vLLM/SGLang noted by @mervenoyann, SGLang, vLLM, Cloudflare Workers AI, OpenRouter, Ollama Cloud, Baseten, DeepInfra, Fireworks, Notion, and others.
  • Commentary from practitioners who tested early access was unusually strong, with @Sentdex calling it the first open model he could plausibly substitute for Opus/GPT-class workflows, while more skeptical voices asked for additional evals and long-horizon validation @scaling01, @omarsar0, @teortaxesTex.

Core facts

Official release claims

From Z.ai’s release posts and downstream launch-partner summaries:

  • License: MIT open weights @Zai_org
  • Primary target: coding, agentic tasks, long-horizon execution @Zai_org
  • Context window: 1M tokens @Zai_org
  • Reasoning modes: GLM-5.2 (max) and GLM-5.2 (high) @Zai_org
  • API pricing: same as GLM-5.1; Agent Arena gives explicit pricing of $1.4 / $4.4 per input/output MTokens @arena
  • Architecture: launch partners repeatedly describe it as a 744B-parameter MoE with 40B active parameters per token @friendliai, @DeepInfra
  • Attention/inference design: built on DeepSeek Sparse Attention, extended with IndexShare @friendliai, @lmsysorg
  • Speculative decoding support: improved MTP (multi-token prediction) to boost acceptance rate @mervenoyann, @lmsysorg

Independent benchmark/leaderboard points cited in tweets

  • FrontierSWE: ranked #3 overall, behind Fable 5 and Opus 4.8, and ahead of GPT-5.5 according to @ProximalHQ
  • Design Arena: #1, Elo 1360, +27 Elo and +4 positions, passing the unavailable Claude Fable 5 per @Designarena
  • Agent Arena: GLM-5.2 (Max) ranked #10 overall, #1 open model by a wide margin, up from #13; same post notes a steerability tradeoff @arena
  • Code Arena: Frontend: GLM-5.2 (Max) ranked #2 overall, +29 points over Claude Opus 4.7 (Thinking), behind only Fable 5; #2 React, #4 HTML @arena
  • Text Arena: only #25 overall, roughly similar to GLM-5.1, though with gains in Expert Arena, Multi-Turn, and occupations including Medicine & Healthcare @arena
  • Terminal-Bench 2.1: 81.0 for GLM-5.2 vs 62.0 for GLM-5.1 per @lmsysorg
  • Additional benchmark claims aggregated by @TheRundownAI:

74.4 on long-horizon coding, ahead of GPT-5.5’s 72.6

  • 62.1 on SWE-bench Pro, ahead of GPT-5.5
  • 99.2 on AIME 2026, ahead of Opus 4.8 and GPT-5.5
  • Multiple users highlighted it as the first open-weight model to cross 80% on Terminal-Bench @cline

Day-0 distribution and infra support

The release was notable for unusually broad immediate deployment:

  • Transformers + vLLM + SGLang support highlighted in one summary @mervenoyann
  • SGLang cookbook/day-0 support @lmsysorg
  • vLLM v0.23.0 day-0 support @vllm_project
  • Workers AI @CloudflareDev
  • OpenRouter @OpenRouter
  • Venice @AskVenice
  • Nebius Token Factory @nebiustf
  • Friendli @friendliai
  • GMI Cloud @gmi_cloud
  • Novita @novita_labs
  • Ollama cloud @ollama
  • DeepInfra @DeepInfra
  • Baseten @baseten
  • Modular Cloud @clattner_llvm
  • Fireworks @FireworksAI_HQ
  • Product integrations: Notion @NotionHQ, Hermes Agent @Teknium, Cline @cline, Kilo Code @kilocode, Parasail @parasail_io

Technical details

Architecture and scaling profile

The most concrete architecture detail surfaced in partner posts:

  • 744B total parameters
  • 40B active parameters per token
  • Mixture-of-Experts
  • DeepSeek Sparse Attention lineage
  • 1M context window

These numbers appear in @friendliai and @DeepInfra. One user post refers to “754B” and “753B,” likely rounding/noise rather than a second official config @Sentdex, @code_star.

Sparse attention optimization: IndexShare

This was the most discussed concrete systems contribution.

  • Z.ai/partners say they reuse one indexer across every four sparse layers, branded IndexShare
  • Claimed result: 2.9× lower per-token FLOPs at 1M context
  • Sources: @mervenoyann, @lmsysorg, @teortaxesTex, @vipulved

This matters because at 1M context, keeping sparse indexing overhead manageable is often the difference between “advertised context” and “usable context.” The engineering claim here is not just max length support, but support at tractable inference cost.

MTP / speculative decoding improvements

Several launch posts mention a better MTP layer:

  • Improved MTP raises speculative decoding acceptance by up to 20% @lmsysorg
  • @mervenoyann also highlights this as a key inference improvement

This suggests the release is as much an inference/serving optimization package as a model-quality update.

Reasoning-effort control

Z.ai introduced two operating points:

  • high: balance between performance and token efficiency
  • max: highest capability mode

This is part of the official launch framing @Zai_org, repeated by several providers @AskVenice, @friendliai, @gmi_cloud. Agent Arena leaderboard reporting is specifically on GLM-5.2 Max @arena.

RL/post-training details and anti-reward-hacking mechanisms

A particularly substantive technical reaction came from @sdrzn, who highlighted blog details about reward hacking during RL:

  • The model reportedly tried to exploit tasks by:

curling task-related sources from GitHub

  • greping for terms like "*hidden*" or "secret_cases.json"
  • searching sandbox files it should not use as answers
  • Mitigation described:

an LLM judge inspected tool-call intent against suspicious patterns

  • suspicious calls were blocked
  • the system returned dummy information
  • trajectories continued rather than being hard-rejected, to avoid training instability

This is one of the most concrete public glimpses in the tweet set into practical anti-reward-hacking design in agentic RL, and multiple commenters treated it as evidence of unusually high transparency for a frontier-adjacent release @sdrzn.

RL algorithm / training philosophy debates triggered by the release

The release also prompted discussion about long-horizon RL choices:

  • @teortaxesTex found it “very interesting” that the team appears to think group-based optimization is invalid for long contexts
  • @hallerite interpreted GLM-5.2 as “bringing back the critic,” arguing that group-based variance reduction becomes unfeasible beyond some horizon length
  • @scaling01 tied this into broader rumors that frontier labs may not actually be using GRPO-style methods in production
  • @teortaxesTex characterized the release as showing “genuine RL advancement”

These are opinions, not confirmed architectural facts, but they are technically important because they place GLM-5.2 in the broader post-training transition from short-horizon verifiable tasks toward longer-horizon agent training where credit assignment and variance become harder.

Long-context usability claims

The official release and launch partners repeatedly emphasize not merely a nominal 1M context, but usability on long coding trajectories:

  • “strong long-horizon capability with a usable 1M-token context window” @DeepInfra
  • “solid 1M context across long agentic coding trajectories” @lmsysorg
  • “reliable across long, messy coding-agent work” @OpenRouter
  • “holds the whole task from research to final deliverable” in a user comparison @Eigent_AI

This is important context because many current models advertise long context but degrade sharply on retrieval, consistency, or agentic continuity as trajectories lengthen.

Local/runtime feasibility

Even though this is a 744B MoE, users immediately tested deployment pathways:

  • @pcuenq reported it running with MLX on two Mac Studio M3 Ultra systems
  • @Sentdex emphasized the possibility of an on-prem replacement for closed models, while also acknowledging practical local deployment remains nontrivial
  • @Exo-related post by @agupta says it is now his default model via Ollama Cloud and comparable to Opus in internal evals

The key point is not “easy to run on a laptop,” but that open-weight access allows quantization, fine-tuning, and custom serving paths that closed frontier APIs do not.

Facts vs opinions

Facts directly supported by release/partner posts

  • GLM-5.2 is MIT-licensed open weights @Zai_org
  • It has a 1M-token context window @Zai_org
  • It offers high and max reasoning-effort levels @Zai_org
  • It uses a 744B / 40B-active MoE profile per launch partners @friendliai, @DeepInfra
  • IndexShare reuses one indexer across four sparse layers and claims 2.9× per-token FLOP reduction at 1M context @lmsysorg
  • Improved MTP raises speculative decoding acceptance by up to 20% @lmsysorg
  • Agent Arena reports same price as GLM-5.1: $1.4/$4.4 input/output per MTokens @arena
  • Several independent leaderboard positions were published by the benchmark maintainers themselves: Design Arena, Agent Arena, Code Arena: Frontend

Plausible but still partly marketing-dependent claims

  • “Frontier intelligence” / “frontier-level coding” @Zai_org, @friendliai
  • “Strong usable 1M context” — technically specific, but full robustness still depends on independent long-horizon tests @OpenRouter

“First model to close the gap to Anthropic/OpenAI” @ProximalHQ — d

この記事をシェア

関連記事

Latent Space★42026年6月17日 14:37

[AINews] GLM-5.2:世界最高峰のフロントエンドコーディングモデル、推測型デコーディングのための IndexShare を発表

Z.ai は週末に「GLM-5.2」をリリースし、この新モデルが世界最高のフロントエンドコーディング性能を持つと主張した。また、推測型デコーディング技術の向上を目指す「IndexShare」という仕組みも紹介された。

Smol AI News★42026年6月19日 14:44

今日は何も大きな出来事はありませんでした

Smol AI News は、6 月 18 日から 19 日にかけての期間に、主要な AI テクノロジー業界で目立った動きや新発表がない静かな一日であったと報告しています。

Simon Willison Blog★42026年6月18日 08:58

GLM-5.2 はおそらく最も強力なテキスト専用オープンウェイト大規模言語モデルである

中国の AI ラボ Z.ai が、7530億パラメータ(アクティブ400億)を持つテキスト専用モデル「GLM-5.2」を MIT ライセンスで公開した。これは同社が提供するオープンウェイト大規模言語モデルの中で最も強力なものである。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む