GLM-5.2 はオープンエージェントへの飛躍的ステップ(11 分読)
Z.ai が公開した GLM-5.2 は、Anthropic の規制への対抗として週末にリリースされ、オープンエージェント分野における重要なステップチェンジとなるモデルである。
キーポイント
戦略的なリリースタイミング
Z.ai は Anthropic の「反オープンサイエンス」姿勢に対する対抗意識から、通常とは異なり週末(6月13日)に GLM-5.2 をリリースし、市場の注目を集めた。
バージョンアップの質的転換
GLM-5.1 からの「小さな」バージョンアップに見えたが、ベンチマークとトレーニングの微細な変化により、ユーザー体験の閾値を越える実用的な新用途が開かれた。
中国系オープンウェイトの台頭
Moonshot AI(Kimi)や Z.ai(GLM)といった中国発のオープンウェイトモデルが、研究者の間で最も愛されるトップモデルとして市場を再編している。
影響分析・編集コメントを表示
影響分析
このニュースは、オープンソース LLM の競争環境が西側企業(Anthropic など)の規制姿勢に対する対抗軸として中国系モデルへシフトしていることを示唆しています。GLM-5.2 のような「小さな改良」が実用上のブレークスルーとなる点は、開発者や研究者にとって、ベンチマーク数値だけでなく実際のユースケースへの適合性を重視する必要性を再認識させる重要な示唆です。
編集コメント
週末の急なリリースという異例の手法は、業界内の倫理対立を逆手に取った明確な戦略的動きと言えます。開発者コミュニティが「オープン性」を重視する中で、中国系モデルがどのようにして信頼と市場シェアを獲得しているかを示す好例です。
Housekeeping: Following my "State of the blog" post last week, noting a slight increase in paid features, it's a good time to remind folks that I offer group subscriptions with larger discounts proportional to the number of seats. I also released a new paper today on open RL recipes for terminal agents, read more here.
A bit over a week ago, when the AI world was still reeling from the shocking export restriction, and effective banning, of Claude Fable 5, Z.ai released their latest model, GLM-5.2. This model was rolled out unusually on a Saturday, June 13th, to GLM Coding Plan members. This is an unusual release practice, normally when an AI model is released on a weekend it's for a weird reason (most famously, Llama 4).1 In this case, it seemed like Z.ai was excited to capitalize on the zeitgeist of "Anthropic being anti open-science" with their silent safeguards on AI researchers. For the past year or two, the Chinese open-weight labs have taken every opportunity they have for easy marketing wins like this.
業界全体で一般的な命名規則に従えば、GLM-5.2 は人気のある GLM-5.1 モデルに続く漸進的なアップデートのように見えるかもしれません。現時点では、Kimi モデルを開発する Moonshot AI と、GLM モデルを開発する Z.ai が、AI 研究者の間で最も愛されているオープンウェイトモデルによって、評判市場のトップを固めています。ここで明らかになったのは、AI モデルを追跡する際の一般的な教訓です。つまり、マイナーバージョン番号のわずかな違いが、AI モデルを実用的なユーザー体験の閾値を超える可能性をもたらすことがあります。ベンチマークやトレーニングにおける小さな変化が、広範な新たなユースケースを開くのです。
その後に続いたのは、GLM-5.2 に対するゆっくりとした、しかし確実な高揚感です。公式の MIT ライセンス付 モデルウェイト と リリースブログ は、初期ロールアウトから 3 日後の 6 月 16 日に公開されました。強力なベンチマークスコアや、Z.ai が採用する非常に人気のある RL フレームワーク(SLIME)、常にモデルを Max thinking effort で使用することの推奨事項など、多くの技術的詳細について語ることができますが、初期リリースブログに焦点を当てるべきではありません。それが本物かどうかを知るには、エコシステムからの反応を待って読む必要があります。いずれにせよ、ベンチマークは今日では半分死んでいます。
16 日に続いて、GLM-5.2 が予想を上回る結果を示すコミュニティベンチマークが相次いで発表されました。Arena のエージェントリーダーボードでは、OpenAI や Anthropic の最新モデルと互角に渡り合える唯一のオープンモデルとして GLM-5.2 が位置づけられています(特筆すべきは、思考なしモードでの Opus 4.8 と同等のパフォーマンスを、GLM-5.2 の最大モードで達成している点です)。これは GLM-5.2 が Gemini を圧倒する多くの評価指標の一つに過ぎませんが、その詳細はまたの機会にお話ししましょう。コミュニティ内(特に実際のデザイナーの間)で評価が分かれているベンチマークである Design Arena では、GLM-5.2 が Claude Fable 自体をも上回る結果を記録しました。Claude Fable とは、最近禁止されたばかりの過剰な hype を生み出す機械のことです!
私が信頼する AI コメンテーターや研究者層のほぼ全員が、実際に使用した後にこのモデルを絶賛しています。コミュニティ内でこれほど議論の焦点となるのは、オープンモデルがリリースされた過去に一度きりでした — それは DeepSeek R1 の時です。私は安易に比較はしていませんが、Kimi K2 の発表を「DeepSeek モーメント」に例えた際、GLM-5.2 はそれを遥かに上回る成果を収めました。Kimi K2 が印象的だったのは、オープンモデルのパフォーマンスにおける大きな飛躍が、中国のどこからでも起こり得る可能性があるという点でした。しかし、GLM-5.2 による今回のステップは、AI の進展にとって一方通行の扉のようなものです。
Claude Code を背景とした Anthropic の記録的な収益成長率は、同社が最良のモデルであり、実際にこれを実行できる唯一のモデルであることに強く支えられています。GLM-5.2 は、信頼性の高い代替案を提供するオープンウェイトモデル(open weight models)の最初のものとなるものであり、今後さらに多くのモデルが続々と登場します。この状況は非常に明確で、DeepSeek R1 が示したように、リソースがはるかに少ないオープンウェイト研究所でも、OpenAI が o1 で推進していた思考連鎖推論モデルを再現できることが証明されました。AI システムはより複雑化し、ツールや統合されたハーンセス(harnesses)、スケールされたモデル重み(model weights)を伴うため、構築コストが大幅に上昇しています。そのような状況下で、GLM-5.2 のような転換点が生じることは自明ではありませんでした。
重要な点は、GLM-5.2 がコーディング環境において汎用エージェントとして「しっくりくる」オープンウェイトモデルであるという点です。これがその最初のモデルです。個人的には、Kimi K2.7 や GLM-5.1 といった最近の競合モデルを試すのが遅れていましたが、あまりにも過剰な期待に押されて無視できませんでした。私は Fireworks の API を使用して Claude Code で ポストトレーニングコース のコンテンツ作成を支援させるためにこのモデルを実際に使ってみました(セットアップ手順 は*非常に簡単*でした)。Claude Code 環境や私のリポジトリのドキュメントがモデルに画像を送ろうとして Fireworks API のセッションがフリーズしてしまうといった、いくつかの小さな問題もありましたが、これは手動でコンテキストをクリアする必要がありました。全体的に、このモデルの能力は直感的にしっくりくるものであり、どの環境と推論プロバイダーを使用するかについてはまだ微調整が必要です。
さらに注目度を高めるために、Z.ai の創業者が Elon に対して「オープンウェイトの Fable 機能は 2027 年第 1 四半期よりも早く登場する」と述べている様子や、Vercel の CEO が「@zai_org による GLM-5.2 のコーディング能力に本当に感銘を受け、ほぼ驚愕している。これが状況を根本から変えることになる」と発言している様子をサンプリングできる。また、私が深く敬意を払っている人々や、新たに知ったばかりの人々の意見も多数ある。
さて、これは優れたモデルであるが、これで我々はどこに立っているのか?
多くのトレンドが作用している。まず、オープンとクローズドの能力差という観点から話を始めよう。私は以前、「もしオープンモデルが 2026 年初頭から Claude Code の Opus 4.5 の閾値を超えれば、利用爆発(explosion in usage)が起きるだろう」という見解を述べたことがある。そして今、その時が来たのだ。Claude Opus 4.5 が 2025 年 11 月 24 日にリリースされ、GLM-5.2 が 2026 年 6 月 16 日にリリースされるまでの期間差は 204 日、つまり約 6.8 ヶ月である。これは、多くの人が米国のクローズドラボと中国のオープン counterpart(対抗馬)との間のパフォーマンス遅れとして主張する 6〜9 ヶ月のタイムラグの真ん中に我々を位置づけるものである。
この文章を書くにあたり、私は驚いています。米国の研究機関がこの約1年間で計算資源を急速に拡大してきたにもかかわらず、性能の格差は時間とともに広がるものだと予想していました。この軌道上における非常に重要な一歩として、Claude Fable 5 のリリースも挙げられますが、これは Claude Opus モデルと比較してスケールへの依存度が高く、したがって最も先進的な GPU を必要とするものです。それでもなお、それは満足できる答えではありません。ここでの軌道をさらに解きほぐすには、目次記事に収める余裕がないほど多くのニュアンスが必要です。
これの最も直接的な意味は、組織内におけるトークン数の最大化(tokenmaxxing)に伴う、はるかに深刻な価格競争圧力であり、Anthropic の収益を月並みではない高みに押し上げるものです。一部の予測では Anthropic は予想された ARR 数値に達しないだろうとされますが、私はこれらのモデルに対する真の需要と避けられない成長を価格設定に反映しているとは考えません。このモデルが存在することは、オープンモデル*エコノミー*にとって大きな恩恵です。Fireworks、Together、Thinky(Tinker を経由)、Prime Intellect、そしてオープンモデル推論やファインチューニングを販売する他のすべての企業は、新たな転換点に達しました。
ここでの効果が広範な経済やユースケースに浸透するには長い時間がかかるでしょう。ワークフローはより複雑化しており、人々は計画、主要なコーディング、サブエージェントのdispatch(派遣)のために異なるモデルを使用しています。私はこの過熱がさらに高まると予想しますが、なんといっても、私が今週日の夕方にこれを書いている最中に、メディアや市場の反応が月曜日にDeepSeek R1のリリース時と同様の現象になるかもしれないとさえ思えます。Anthropicの、ひいては米国のフラッグシップモデルがまだ禁止されている間にこの浸透が進むことは、深刻な経済的な打撃となります。GLM-5.2には、フロンティアラボが絶対的なフロンティアモデルによってのみ可能となる高マージン・高収益領域への前進を推進したい時期に、その経済の裏側(underbelly)を切り開く時間が与えられています。
この経済的懸念はAIにおいて何度も語られてきた物語と類似しており、いつ定着するかは不透明です。
AIの軌跡にとってより核心的な対話は、オープンモデルの規制と管理に関するものです。安価な知能が広く浸透することは経済的に有益であり、私たちのデフォルトの立場はオープンモデルを応援することであるべきですが、このモデルのリリース日は、AIのパワー構造におけるメンタルマップにおいて、Claude Fable(クラウド・フェイブル)—ひいてはClaude Mythos(クラウド・ミソス)—と永久に結びつけられることになります。私たちは今や、Mythosクラスのモデル能力が米国政府によってリリースには安全でないと判断される一方で、中国のモデルメーカーたちは、すべての人が利用可能な能力において前進を続けています。
これらの傾向線は必ずしも因果関係があるわけではありません。GLM-5.2 とその先行モデルのサイバーパフォーマンスをまだ知らないからです。しかし、能力には明確な相関関係があります。現状が何ら変化しないままでは、米国政府が特定のオープンウェイト中国製モデルを公衆にとって安全でないと判断する可能性を示唆しています。ここには他にも多くの潜在的なシナリオが存在しますが、明らかなのは、それらをマッピングし、インフラを整備し、社会へのメッセージングを行うために、私たちが取り組むべき課題が山積しているということです。
今後ますます能力が高まるオープンモデルをどのように管理すべきかについて、意思決定者に対して世界像を想像し、伝えるためには、私一人よりもはるかに多くの人々が必要です。Nvidia の次世代チップはすでに生産されており、アルゴリズムの進歩も絶え間なく続いています。AI の進展にはまだ数年先まで続く道があります。オープンモデル支持者にとってこれは狭い道のように感じられますが、パフォーマンスにおける劇的な飛躍がクローズドモデルにのみ独占されないよう、それらを存続可能にする方法を私たちは見つけなければなりません。
オープンにアクセス可能な Mythos クラスのモデルを想像することがどれほど恐ろしいかは理解できます。しかし、もし今オープンモデルが禁止され、2 年後には 1 つまたは 2 つの企業の手元にあり、クローズドモデルだけが 10 倍や 100 倍も良くなってしまったとしたら、私たちはより大きな問題に直面することになるでしょう。
私がいつも際立って感じるのは、中国のラボがいかに速くモデルをリリースするかということです。複数のラボから聞いた話では、モデルのトレーニング完了後に重みを HuggingFace に公開するまでの時間は、日数ではなく時間で測れるほど短かったそうです。ただし、より広い推論市場向けにモデルを提供する準備が必要になった現在、このスピードは少なくとも少し鈍化しているようです。
さらに議論を深める必要があるのは、Mythos プレビューのようなクローズドモデルでさえも、許可されていないユーザーの手元に置かれたり、 Jailbreak されたりすることが日常的にあるという点です。つまり、アクセスにおけるオープンとクローズの二項対立は、決して白黒はっきりしているわけではありません。
原文を表示
Housekeeping: Following my “State of the blog” post last week, noting a slight increase in paid features, it’s a good time to remind folks that I offer group subscriptions with larger discounts proportional to the number of seats. I also released a new paper today on open RL recipes for terminal agents, read more here.
A bit over a week ago, when the AI world was still reeling from the shocking export restriction, and effective banning, of Claude Fable 5, Z.ai released their latest model, GLM-5.2. This model was rolled out unusually on a Saturday, June 13th, to GLM Coding Plan members. This is an unusual release practice, normally when an AI model is released on a weekend it’s for a weird reason (most famously, Llama 4).1 In this case, it seemed like Z.ai was excited to capitalize on the zeitgeist of “Anthropic being anti open-science” with their silent safeguards on AI researchers. For the past year or two, the Chinese open-weight labs have taken every opportunity they have for easy marketing wins like this.
GLM-5.2, in a common naming convention across the industry, looked potentially like an incremental update following the popular GLM-5.1 model. At this point, Moonshot AI, makers of the Kimi models, and Z.ai, makers of the GLM models, have consolidated the top of the reputational market with the most beloved open-weight models among AI researchers. What unfolded is a common lesson in tracking AI models that often minor version numbers can have AI models crossing meaningful user experience thresholds. A small change in benchmarks and training can open a wide range of new use-cases.
What has followed is a slow, groundswell of hype for GLM-5.2. The official, MIT-licensed model weights and release blog dropped three days after the initial rollout, on June 16th. One could ramble many technical details, such as the strong benchmark scores, the very popular RL framework that Z.ai uses (SLIME), the recommendation of always using the model on Max thinking effort, and so on, but the initial release blogs usually aren’t the thing to focus on. You can wait and read the ecosystem reaction to know if it’s the real deal. Benchmarks are half dead these days, anyways.
What followed on the 16th was a slew of community benchmarks showing better-than-expected results for GLM-5.2. Arena’s agent leaderboard had it as the only open model mixing it up with OpenAI and Anthropic’s latest models (notably matching Opus 4.8’s no-thinking effort to GLM-5.2’s max mode). This is one of many evals GLM-5.2 is crushing Gemini on, but that’s a topic for another time. A benchmark that has mixed perception in the community (particularly among actual designers), Design Arena even had GLM-5.2 besting Claude Fable itself — the recently banned hype machine!
Pretty much everyone I respect among the AI commentariat and researcher class has praised the model after using it personally. Such a focal point of discussion among the community has only been so clear with an open model release once before — DeepSeek R1. This is not a comparison I make lightly, and when I compared Kimi K2’s release to a “DeepSeek Moment,” GLM-5.2 has well exceeded that. What made Kimi K2 impressive was that big steps in open model performance could seemingly come from *anywhere* in China. The step that GLM-5.2 has taken is more of a one way door for AI progress.
Anthropic’s record revenue growth rate on the back of Claude Code is heavily driven by being the best model, and the only model that can really do this. GLM-5.2 is the first of many (coming soon) open weight models to offer credible alternatives. The parallel is very clear, to when DeepSeek R1 showed that open-weight labs, with far fewer resources, could also replicate the chain-of-thought reasoning models that OpenAI championed with o1. As AI systems get more complex and far more expensive to build, with tools, integrated harnesses, and scaled model weights, it was not a given that this GLM-5.2 moment would happen at all.
The key point is that GLM-5.2 is the open weight model that feels right in coding harnesses as a general agent. It’s the first one. I was personally overdue in trying some of the recent peer models, such as Kimi K2.7 or GLM-5.1, but the hype was too much for me to ignore. I put it to work helping make content for my post-training course with Fireworks’ API in Claude Code (setting this up was *very* easy). There were some minor knife cuts, such as the Claude Code harness / my repo documentation trying to send images to the model, which would brick Fireworks API for the session — forcing a manual context clear. Overall, the model capabilities immediately felt right, and I still have some tinkering to do in which harness and inference provider to use.
For more hype, you can sample the Z.ai founder telling Elon that “open-weight Fable capabilities will be here sooner than Q1 2027,” the CEO of Vercel saying “Genuinely impressed, almost shocked, at how good GLM-5.2 by @zai_org is at coding. This changes things,” and much more from a mix of people whose opinions I deeply respect and others I’m new to.
So, this is a good model, where does this leave us?
There are many trends at play. To start, let’s ground things in the open-closed capabilities gap. I’ve written how I expect an “explosion in usage” if open models crossed the Opus 4.5 in Claude Code threshold from around the start of 2026. Here we are. With Claude Opus 4.5’s release on November 24th, 2025, the gap in time to GLM-5.2’s release on June 16th, 2026 is 204 days — or about 6.8 months. This puts us square in the 6-9 month time gap that many people claim as the performance lag between the U.S.’s closed labs and China’s open counterparts.
Upon writing this, I’m surprised. As the U.S. labs have so rapidly ramped compute in the last ~year, I’ve expected the gap in performance to grow in time. A very meaningful step in this trajectory will also be Claude Fable 5’s release — which was more reliant on scale, and therefore the most advanced GPUs, relative to the Claude Opus models. Still, that’s not a satisfactory answer. Continuing to unpack the trajectory here involves more nuance than I can afford to fit in a signposting article.
The most immediate meaning of this is far more serious pricing pressure within the organizations tokenmaxxing, sending Anthropic’s revenue to the moon. Some would predict Anthropic doesn’t realize its forecasted ARR numbers, but I don’t think that prices in the true demand for these models and the inevitable growth. This model existing is a huge boon for the open model *economy*. All the likes of Fireworks, Together, Thinky (via Tinker), Prime Intellect, and whoever else sells open model inference or finetuning just hit another inflection point.
It’ll take a long time for the effects here to diffuse into the broader economy (and use-cases). Workflows are becoming more complex, with people using different models for planning, primary coding, and subagent dispatch. I expect the hype to continue to grow, and heck, as I’m writing this on a Sunday evening, I could see the media and market reaction on the Monday being a thing just like the DeepSeek R1 release. This diffusion happening while Anthropic’s, and by extension the U.S.’s flagship model, is still banned is a severe economic dagger. GLM-5.2 is being given time to carve out the economic underbelly of the frontier labs when they want to be pushing forward into higher margin, higher revenue domains enabled only by the absolute frontier models.
The economic concern mirrors a story that has been told many times in AI, so it’s unclear when it’ll stick.
The conversation that feels more core to the trajectory of AI is that of regulation and control of open models. I think it is an economic good for cheap intelligence to diffuse widely, and our default position should be to cheer for open models, but this model’s release date will have it be permanently associated with Claude Fable — and therefore Claude Mythos — in the mental map of AI power structures. We are at a point where Mythos-class model capabilities are deemed not safe for release by the U.S. Government and the Chinese model makers are charging forward in capabilities available to all.
These trend lines aren’t necessarily causally linked, as we don’t know the cyber performance of GLM-5.2 versus its predecessors, but the capabilities are definitely correlated. Without anything changing, this points to a potentiality where the U.S. Government decides a certain open-weights Chinese model is not safe for the public. There are many other potential scenarios here too, but what is clear is that we have a lot of work to do in mapping them out, preparing our infrastructure, and messaging to society.
It’ll take a lot more people than just me to imagine and communicate a world to decision makers for how to manage evermore capable open models.2 We have years more of AI progress to come, with Nvidia’s next generation chips already in production and a constant stream of algorithmic advancements. It feels like a narrow path for open model advocates to take, but we need to figure out how to make them viable so the massive leaps in performance don’t only go to closed models.
I totally see why it is scary to imagine an openly accessible Mythos class model, but if open models get banned now and only closed models get 10 or 100X better in 2 years in the hands of one or two companies, I think we will have bigger problems on our hands.
Something that has always stood out to me is how fast the Chinese labs release their models. I’ve heard from multiple labs that the time to upload the weights publicly to HuggingFace after the model finishes training could be measured in hours rather than days. This has at least slowed a bit, now that they need to prepare to serve the model to a wider inference market.
Something that will need to be discussed more is how even closed models, e.g. Mythos preview, are regularly in the hands of unauthorized users or jailbroken. So, the open vs. closed dichotomy on access isn’t totally black and white.
関連記事
[AINews] 今日特に大きな出来事はありませんでした
Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。
AI Gateway に GLM-5.2 が利用可能に
Vercel の AI Gateway で、コンテキストウィンドウが 100 万トークンに拡張された Zai の最新モデル「GLM-5.2」の利用が可能になった。
GLM 5.1の戦略的思考、データセンター反発の激化、有用LLMが役に立たなくなる時、二足歩行ロボットの現場導入
智譜GLM 5.1が戦略的思考機能を搭載し、データセンターの電力・労働問題が激化する。また、有用なLLMが逆効果となる現象や二足歩行ロボットの現場導入、コーディングエージェントの進捗が報じられている。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み