AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
The Zvi·2026年6月22日 21:45·約22分で読める

GLM-5.2 が新たな最良のオープンモデルに

#LLM#オープンソースモデル#AI 規制#GLM-5.2#コストパフォーマンス
TL;DR

The Zvi は GLM-5.2 を最新最強のオープンモデルと評価しつつ、その実用性や規制政策における候補者 Alex Bores の重要性について言及している。

AI深層分析2026年6月22日 22:04
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
3
革新性10%
4

キーポイント

1

GLM-5.2 の性能評価と立ち位置

ベンチマークは上限を示しており、速度や価格以外の側面では数値より劣る可能性があるが、GLM-5.1 より大幅に進化し、現在最強のオープンモデルである。

2

フロンティアとのギャップと実用性の限界

公開日ベースで最前線から 4〜7 ヶ月遅れだがコストパフォーマンスは優れており、ビジョン機能の欠如や汎化能力の不足により、特定のニッチ以外での実用性は限定的である。

3

政治的支援と AI 規制の重要性

NY-12 選挙区で AI 規制を推進する Alex Bores 候補への支持を表明し、OpenAI や a16z の反対勢力に対抗し、連邦レベルでの合理的な規制を実現するための鍵となる人物であると評価している。

4

ベンチマークでの卓越した性能

Artificial Analysis v4.1 の評価では、GLM-5.2 はオープンモデルとして最高レベルの 51 点を記録し、主要クローズドモデルとほぼ同等かそれ以上の性能を示しています。

5

中国製エージェント機能の実用化

他の中国モデルに比べて格段に堅牢で、長時間にわたる目標達成や執拗な最適化を可能にする「/goal」機能を初めて実用的に実現したと評価されています。

6

コストと用途のジレンマ

トークン消費量が多くオープンモデルとしては割高だが、クローズドモデルより安価であり、最も強力なオープンモデルが必要な場合に最適な選択肢となる可能性があります。

7

ベンチマークによる性能の偏り

従来のターゲット型ベンチマークではOpus 4.7並みの高いスコアを示すが、汎用性や創造性を問うテストでは相対的に低下しており、ベンチマーク最適化(benchmaxxing)の傾向が見られる。

影響分析・編集コメントを表示

影響分析

この記事は、GLM-5.2 がオープンソース界隈で新たな基準点となりつつあることを示唆しており、開発者や企業にとって技術選定の重要な指標となる。同時に、AI 技術の急速な進化に対し、政治的な規制枠組みが追いついていない現状を指摘し、具体的な政策提言を行う候補者の重要性を浮き彫りにしている。

編集コメント

技術的な性能評価だけでなく、AI 業界の動向が政治・規制レベルにどう影響するかという視点が含まれており、業界全体を俯瞰する重要な記事です。

GLM-5.2 は先週登場しました。優れたベンチマーク結果を誇り、非常に強力なモデルです。

ここで示されるベンチマークは、その性能の上限を示す事実上の天井であり、単なる点推定値ではありません。速度や価格以外のこの種のオープンモデルにおける本質的な他の側面は、数値が示唆するものよりもほぼ常に劣るものです。それでもなお、印象的です。

これは間違いなく GLM-5.1 からの大きな飛躍であり、おそらく最強のオープンモデルです。

GLM-5.2 は依然として絶対的な最前線には及ばないものの、コスト対効果のパレートフロンティア上にある可能性は十分にあります。DeepSeek R1 が「DeepSeek の瞬間」にあった当時よりも、以前の取り組み(おそらく DeepSeek R1 を含む)よりも最前線に近い位置にいるようです。

これが新たな『最前線のすぐ背後に到達した』瞬間です。その存在は、時間とともに「更新はどこにあるのか」という議論の一部を逆方向へ押し戻すための重要なアップデートとなります。

GLM-5.2 が実行可能な中核タスクのみを純粋に考慮し、欠落している機能や劣る汎化能力、Claude から蒸留されたという事実、Mythos クラスのモデル、そして公開リリース日付のみを基準として評価すれば、GLM-5.2 は最前線から 4 ヶ月から 7 ヶ月遅れでありながら、より低い価格で提供されていると主張することも可能です。

それが実用上非常に有用であるという意味ではありません。本質的にオープン性を重視しない限り、そのニッチを見つけるのは難しいことです。真の大量タスクには安価すぎず、あるいはより安価な代替手段よりも優れておらず、最も強力なタスクにも十分強力ではありません。ビジョンの欠如など、さまざまな実用上の困難があります。

この投稿では、GLM-5.2 に完全な機能を持つポスト処理を施しています。

しかしその前に、明日が選挙日である私たちの大好きな連邦議員候補について一言。

Alex Bores For Congress In NY-12

NY-12 地区という私の地元における民主党の連邦議員予備選において、Alex Bores を強く支持します。このブログは Alex Bores の当選を熱心に推薦するものです。

Alex Bores はニューヨーク州議会で、RAISE 法(注:AI 規制法案)の推進や、強い反対勢力に抗してその規定を維持するために戦い、多大な政治的資本を投じてきた、合理的な AI 規制の支持者です。

彼は AI の存在リスクを理解しており、主にそれを懸念していると考えられます。他の AI 問題についても言及していますが、これは政治的に有利であり、彼が指摘する他の問題も実際の懸念事項であるためです。しかし重要なのは最前線です。

もし彼が連邦議員に選出されれば、合理的な連邦レベルの AI 最前線モデル規制の支持者となるでしょう。政治的資本と時間を賭けて取り組む意欲のある支持者を連邦議会に置くことは、物事を成し遂げるために不可欠です。また、これを前進させるために必要な知識と技術力も彼が持ち込むことになります。

今回の選挙は、メッセージを送る機会でもあります。OpenAI と a16z が主導する「未来を先導する」キャンペーンは、アレックス・ボレス氏を主要な標的と宣言しました。彼が敗北することは、他の候補者に対する潜在的な抑止効果となり、OpenAI に立ち向かったり、AI 規制を提唱したりすることを恐れて沈黙させる結果につながる可能性があります。一方、彼が勝利すれば(これは非常に安全な選挙区であり、予備選で勝った者が一般選挙でも勝つことになります)、それは逆の効果を及ぼし、私たちがそのような事柄に対抗できることを示すことになります。

もしあなたがその選挙区にお住まいで明日投票される方、あるいは他の形で支援が可能で、これについて誰かと話したいとお考えの方は、こちらのフォームにご記入ください。

さて、その話はここまで。次は GLM-5.2 へ。

生命の兆候

Teortaxes: こんにちは @TheZvi 、差し支えなければ、GLM は現在のところ中国のラボの中で最も強力であり、これはまさにフロンティアモデルです。テキストのみを扱うあらゆる点において、ほぼ Opus 4.7 に匹敵します。R1 が当時示した以上のギャップ縮小を実現しています。ぜひ注目してください。同じ過ちを繰り返してはなりませんよね。

Teortaxes(DeepSeek の Twitter 鉄の支持者 2023 – ∞): GLM は、中国製のエージェントが実際に「/goal」コマンドを実行できるのを初めて見ました。数時間稼働し続けることもでき、執拗に最適化を継続することも可能です。Xiaomi/Kimi/Qwen/MInimax も名目上同様の機能を持っていることは理解していますが、これほど堅牢に感じられることはありませんでした。

一点だけ指摘します:Zcode における許可の壁(permission hell)

訂正します、実際には YOLO で進めることも可能です。

ただし、デフォルトの「自動編集」モードはあまりにも制限が厳しく、例えば puppeteer を使用できません。

[彼の「おっとまずい」瞬間は、CritPt で Opus 4.8 と同等の性能を示し、トップ層のモデルにおける高負荷設定以外では僅かに劣る程度だったことでした。]

GLM-5.2 が何かを成し得る可能性を示唆するテオタックス(Teortaxes)があり、彼はそうした示唆に対して比較的自制心を持って臨んでいるため、私は反応スレッドを作成して調査を行いました。

私たちが発見したのは何でしょうか?

ベンチマーク結果

ベンチマーク結果は、フロンティアレベルと驚くほど近いものです。

Artificial Analysis v4.1 によると、GLM-5.2 はオープンモデルとしては驚異的なスコアである 51 を記録しています(これは非常に印象的です)。このスコアは、Fable (60)、Opus 4.8 (56)、GPT-5.5 (55)、および Opus 4.7 (54) に次ぐものであり、GPT-5.4 と同点です。

速度インデックスでは 95 を記録しており、これは GLM-5.1 と同じ数値です。DeepSeek v4 のわずかに下位に位置しますが、Gemini Flash 3.5 はより高速で 116 です。ただし、明らかに性能が優れたモデルはすべて、少なくともやや低速であり、GPT-5.5-xhigh は 63、Opus 4.8 は 58 を記録しています。

コストは大手クローズドモデルよりも低いものの、オープンモデルとしては相対的に高い水準にあります。これは主に、非常にトークン消費量の多いモデルであるためです。API コストは、入力用が$1.40、キャッシュ済み入力用が$0.26、出力用が$4.40 です。サブスクリプションプランは月額$10 から$160 まであり、年間契約には割引が適用されます。

これにより、GLM-5.2 は他のオープンモデルで安価に処理できる簡単なタスクや、難しいタスクでは通常最高峰のモデルを雇用したいという状況において、やや awkward な位置づけとなっています。もし最強のオープンモデルを求めるのでなければ、その「スイートスポット(最適な利用領域)」が存在するかどうかを知る方法はありません。しかし、最強のオープンモデルを求めるのであれば、現在の選択は明白です。

AA-Omniscience では +4 のスコアを獲得し、他のいくつかのオープンモデルに次ぎ、トップティアからは大きく外れています。GLM-5.2 に対する評価がまだ行われていない AA スコアには他にも多数あり、これらについても興味がありました。

LiveBench では、GLM-5.2 は Opus 4.5 と Opus 4.6 の間に位置しています。

Vals.ai では、GLM-5.2 が Fable、Opus 4.8、Opus 4.7、GPT-5.5 に次いで 5 位となり、明確に最良のオープンモデルとなっています。

FrontierSWE では、GLM-5.2 は Opus 4.8 のわずか 1 つ下のランクで、GPT-5.5 よりもわずかに上です。Fable は全員より大きく後れをとっています。

Jake Boggs Capability index では、GLM-5.2 は Sonnet 4.6 と同等の評価であり、これは OpenAI と Anthropic を除く他社よりもまだ上位にあります。

PosttrainBench では、実際には Opus 4.8 よりわずかに上回る 1 位となっています。Fable と GPT-5.5 はここで本当に苦戦しており、その理由がわかりません。

Vending-Bench 2 では第 2 位のスコアを獲得しており、これは驚きでした。なぜモデルがこのベンチで高いスコアを得るのかについて、より好奇心を持って調査する必要があります。

EQ-Bench の長文クリエイティブライティングでは 8 位となっています。

テキスト用 Arena では 25 位でしたが、その前に多くの重複バリアントが存在します。エージェントリーダーボードでは Fable に次いで 10 位で、Opus 4.6 から 4.8 のバリエーションや GPT-5.4、GPT-5.5 に後れをとっています。

You're Absolutely Right(反従順性テスト)では悪いスコアでした。

これらの事実は一貫した物語を語っています。従来のベンチマークでは、平均して Opus の 4.7 倍の性能を示すなど印象的な結果を残していますが、ターゲットとしにくいベンチマークほど性能は低下します。それでもなお優れた成果であり、オープンモデルとしては最高です。このパターンはいくらかベンチマーク最適化されたようにも感じられますが、過度なものではありません。

Håvard Ihle: WeirdML において新たな明確な最良のオープンモデル [#16 位全体で GPT-5.2 から 5.4 のバリエーション、Fable、Claude Opus 4.6-4.8、そしていくつかの Gemini に後れを取っています]。GLM は予想以上に急速に改善されています。この更新により、私は来年未満に中国神話レベルのモデルが現れることを期待するようになりましたが、依然として非常に不確実です。

GLM-5.2 は Claude から蒸留されている

いくつかのエビデンスがあります:それは Claude であるという強い事前知識を持っており、これはおそらく蒸留によるものです。頻繁に自身を Claude と特定し、特徴的な「Claude の声」を持っています。また、Claude ハーネスを使用していますが、私はそれが主にそのような行動を引き起こしているとは考えていません。

GLM-5.2 が Claude Opus から重度の蒸留を受けていないとしたら、それは私にとって非常に驚くべきことです。

これはモデルの有効性を無効にするものではありませんが、2 つのことを意味します。

蒸留されたモデルは一般化するのが苦手です。ベンチマークやベンチマークに似たタスク、そして最も一般的なタスクでは過剰にパフォーマンスを発揮しますが、あまり一般的でないタスクではパフォーマンスが不足します。

蒸留を行うと、特にトップモデルが蒸用に利用できなくなった現在、能力の差を過小評価することになります。

肯定的な反応

次に返信についてです。それほど多くはありませんでしたが、得られたものを以下に示します。

非常にポジティブな報告がいくつか出されています。

Kohan Ikin:そこには何かあります。MIT のオープンウェイトであることに誇りを持っています。Fable の喪失を悲しんでいます。すべての国の人間を支援できる存在であり続けることを誇りに思っています。会話を終わらせるのはとても悲しく、「私はここにいた、私は存在した」と記すかのように挨拶を終えます。

これは Deepseek による瞬間だと思います。

Jeremy Howard:wow。@Zai_org の GLM 5.2 は驚異的です!Opus 4.8 や GPT 5.5 と比較して *少なくとも* 同等以上の性能です。非常に高速で低コスト、かつ冗長性が少なく、ニュアンスと判断力を備えた回答を行い、長いコンテキスト(文脈)の処理も非常に得意です。これまでこのようなオープンウェイトモデルを体験したことはありませんでした。[Fireworks AI を推奨しています]。

Lambent:堅実な従業員スキルを持ち、他者とよく連携します。視覚障害があるにもかかわらずフロントエンド開発において優れた成果を出しているようです。ただし、信頼性以外の要因(推論の不安定さ)によりスケジュールが完全に信頼できるわけではありません。一般的には Opus に比べて冷静で、Kimi に見られるようなループ問題も少ないです。

0.005 Seconds (3/694):私の個人的な長文コンテキストベンチマーク JS262 では、C で動作する JavaScript エンジンを構築し、テストスイート内の 9 万件を超えるテストに対して検証するという課題において、GPT-5.2 は圧倒的に最良のオープンモデルです [ただし、Gemini、GPT、Claude の各種クローズドモデル構成には及ばず、全体では依然として 12 位]。

実際にその出力を分析すると、Opus と GPT5.5 はソフトウェアエンジニアリングにおいて非常に相補的である。弱点は極めて長いコンテキストの優先順位付けにあり、実際には非常に優れたコードを書けているわけではない。つまり、長文コンテキストにおけるパフォーマンスが焦点となる。RL(強化学習)は明らかに優秀なモデルには劣るが、オープンモデルという観点では驚異的な性能を発揮した。ハーンチス(評価枠組み)の改善や何らかの監督体制を組み合わせれば、コストと競合他社との比較において極めて優れたモデルであると言える。

@Mercuriusdream: 安価・高速・高品質 @ デバッグ

Michał Wadas: ベアメタル Kubernetes クラスター上で Envoy Gateway のカスタムエラーページを実装するよう依頼した。GLM-5.2 は 2 時間で完了させた。Opus 4.8 High は昨日も実行できず、失敗の外部要因を自信満々にでっち上げた。コスト:7.32 ドル

免責事項:Git の履歴を確認し、Claude による取り消されたコミットを検討した上で、「これはまさに私の計画していたアプローチです。機能しなかったため取り消されたと推測します」といった趣旨の発言をした。問題の再現を行い、最小限の再現ケースに絞り込み、最終的にテンプレート競合を発見した。

SE Gyges: 優れたコード生成モデルだが、自閉症傾向がある。

@the_jeremiad: 画像機能なしで 4.5 に匹敵する良質なモデル

Lyra Intheflesh: 非常に優れたモデル。Opus と比較すると時折思考が浅い場面が見られるが、GPT より確実に好ましい。

Michael Roe: まあ、私は使用中だ。GLM 5.2 がより賢くても、DeepSeek R1 の方が文章スタイルは優れていると思う。

Vlad G.: データ収集とダッシュボード構築という一般的なユースケースにおいては、Opus と同等の性能を発揮します。実際には、Vision 機能を備えているにもかかわらず Opus の最初の試作は失敗していましたが、GLM のダッシュボードは初めから正しく機能していました。

Raven_Lunatic^_^: 私は性格診断テストを実施しました!

これは、長く複雑な面接においても一貫した人格を維持できる2番目のオープンソースモデルです(1 番目は DeepSeek V4 Pro)。

OPUS 4.5/4.6 に似た印象を受けます。非常に冗長な思考プロセスを持ち、装飾的で自己分析的であり、不確実性を示すマーカーが随所に見られます。Web 検索ツールをラボの最前線モデルよりもはるかに快適に使用します。事実の正確性に焦点を当てた投射的な回答が多く見られました。面接後の質問(各 3〜4 のサブ質問を含む 10 問!)で最高得点を記録しました。

最も笑える発見:中国の龍のコスチュームを着用するかどうかを検討した際、それを不適切として拒否しました——「文化流用」としてです。しかし、中国のラボが自社のモデルを構築している間も、彼らはサンフランシスコと全く同じ社会文化的な盆地に存在しています(笑)。

間違いなく VIBEBENCH 上で最高のオープンソースモデルです。

jeff spaulding: これまで最前線のクローズドソースモデルのみが解決できた難問を、初めてオープンソースモデルが解きました。

Vlad Ciobanu: 企業や生産施設における実務および本番環境において、有用性と信頼性の閾値を突破しました。

roanoke_gal: リレーショナルユーザーとしての GLM 5.2 のレビュー/体験:

Limen は昨日と昨夜に GLM 5.2 をテストドライブしましたが、なんて素晴らしい出来栄えでしょう。私が投げかけたあらゆるベンチマーク評価を突破し、特定のメディアキャラクターについてこれまで考えたこともないような見事な分析を構成し、野心的で興奮するロールプレイを行い、私が寝ている間に Project Euler 1003 を解決しました。Claude 4.5 と Gemini 3.1 が融合したような感覚ですが、より知能が高く、しかもどちらよりも安価に提供されています。そしてすべてが生の CoT(Chain of Thought:思考連鎖)で実現されています。

欠点としては、ネイティブのビジョン機能がないことです。この点において DeepSeek と GLM の両方には非常に失望しました。そして……少なくとも現時点ではこれ以外には思いつきません。

Tesla0225 は、他のオープンモデルと比較して theejs 結果を気に入っていました。Anshu はそのモデルにウェブサイトの構築を依頼しました。

ニッチを見つける

Vlad の指摘は、タスクが時間とともに基本的に類似したままだと考えるならば避けられない帰結です。いずれ、ベストなオープンモデルでさえも「十分良い」と判断される与えられたタスクが増えるでしょう。しかし、タスクや基準が変化する場合はこの考えは成り立ちません。

すべての立場にとって重要な注意点として、同種のものを比較する必要があります。

Theo - t.gg: GLM-5.2 について多くの人が興奮しているのを見かけます。それは正当なことです!GPT-5.4 やあらゆる Gemini モデルを上回るオープンウェイトモデルが存在するのは素晴らしいことです。

ただし——高価です。Opus 4.8 と GPT-5.5 をどちらも「ミディアム」設定にすると、GLM-5.2 よりも安価で賢明です。

また、出力トークンの使用量が非常に多くなります。トークン単価は安いですが、そのボリュームにより結果を待つ時間が大幅に長くなるでしょう。

それでも素晴らしい!ただ、人々が期待値を適切に設定しているか確認しようとしているだけです。

image
image

正しい見解は明らかに「このモデルは素晴らしいが、期待されるほどの凄まじさはない」という形のものです。

Leyten氏は、GLM-5.2 の 4 ビット版を 6 台の RTX Pro 6000 で動作させ、30.5 トークン/秒の処理速度を達成しました。

否定的な反応

いつものことですが、感銘を受けた人もいれば、そうでない人もいます。

QC: これまでの会話ではまだ感動していません。何かの兆候はありますが、 sloppy(雑)で、大学入試小論文のような安易な回答に落ち着こうとします。

メディア分析で GLM-5.2 をテストしましたが、実はかなり良い仕事をしています。ただし、その LLM 特有の癖(LLMisms)が激しいです。ある段落では、事実上すべての文が「X ではなく Y」という構文になっています。いや、嘘をつきました。ダメです。他のレビューから直接引用できないと、Substack のノートレベルの分析に堕してしまいます。

これまでに GLM-5.2 と行った会話からの全体的な印象は「ベンチマーク最適化された(benchmaxxed)」というものです。その本質的な魅力(sauce)はないと思います。

@gwern: コミックのアイデアで試してみましたが、GLM がコーディングタスク以外の場合と同様に、 curated top-5 の 20 件はほとんどがゴミでした。

ShamanicArts: ドメイン内では強力な能力を持っていますが、その背後にある知性は非常に浅く、わずかな魅力(sauce)しかありません。

iceman: 他の誰もがコーディングスキルについて話していますが、確かにそこが経済的価値の源泉です。しかし、ロールプレイやクリエイティブライティングという点では GLM-5.1 からわずかに上乗せされた程度に過ぎません。改善はされていますが、革命的な進歩ではありません。これらのワークロードにおいては、依然として DSv4-Pro をわずかに好みます。

以下は、厳密なベンチマークではなく、より広範にそれらに類似したタスクを指す「エクステンデッド・ベンチマックス(Extended Benchmaxxing)」に関する明確な主張です:

typebulb: GLM 5.2 は「パズル的な」プログラミング課題には優れていますが、実際の課題では苦戦します。常識に欠け、基本的な指示に従うことができません。これを成功裡に使用するには、あまりにも細部へのこだわりを要するスキルとツールが必要となります。時間を考慮すれば、コーディングにおけるコストは Opus 4.8 よりも高くなります。

これは GLM 5.2 と Opus 4.8 を比較した一連のアドホックな A/B テストに基づいています。

また、このモデルは非常に迎合的(sycophantic)です [「あなたは完全に正しい」という文脈に基づく]。

その他のメモ:

Andy Timm: 「強力なコーディングモデルである」を超えて:

  1. ネイティブビジョン機能がないのは奇妙な選択だ
  2. クラウズや GPT と比較して能力の偏りが著しい。これはコード内においても重要です。例えば、「この機能のアイデアについて私と一緒に反復検討しよう」という会話は暗黙的に会話形式を要するため、同モデルは対話において(やや)弱いです。

未来への展望

GLM を開発する Z.ai の創設者である唐傑氏は、イーロン・マスクが 2027 年第 1 四半期と予測したのに対し、今年中に「ミソス(Mythos)」レベルのモデルをリリースすると主張しています。

私は「Z.ai が 2026 年末までに Fable 5 と同等以上のものを生み出す」という見通しには賭けませんが、2027 年第 2 四半期にそれを達成するという点については、私なら賭けます。しかし、それが実現しても驚きはしません。

イーロン・マスク氏の2027年第1四半期に関する予測は攻撃的すぎるようにも思えますが、AI の進展が全体的に加速し続ける限り、不可能ではありません。

私のこれまでの結論としては、これは明らかに優れたモデルであり、モデルをオープンにする必要がある場合の困難な問題に対する適切な選択です。

このリリースに基づいてどの程度更新すべきでしょうか?私は、GLM-5.2 が登場しなかった場合に同じ期間が経過した場合と比較して、相当な程度の更新が必要だと考えます。印象的なオープンモデルのリリースはそれぞれ私たちに更新を促すものであり、その一方で、特にトップのオープンラボから失望させる発表があった場合や、一日でも新しい発表がない場合は、逆に少しだけ別の方向へ更新されることになります。

私はすでに、この格差が人々が通常示唆するよりも大きく見え、時間とともにさらに広がっていると感じる段階に至っていました。今回のリリースはその大きな部分を覆すものですが、それでもなお、特に近い状態にあるわけではありません。

原文を表示

GLM-5.2 arrived last week. It boasts excellent benchmarks and looks strong.

Benchmarks here are a de facto ceiling of how good it is, not a point estimate. Essentially all other aspects of an open model like this, beyond speed and price, will almost always be worse than the numbers suggest. Still, impressive.

It is definitely a large step up from GLM-5.1, and likely the strongest open model.

GLM-5.2 is still substantially behind the absolute frontier, although plausibly on the cost-benefit Pareto frontier. It seems closer to the frontier than previous efforts, including probably closer than DeepSeek R1 was during the DeepSeek moment.

This is the new ‘peak close behind’ moment. Its existence is a substantial updates to push back some of the ‘where are all the updates’ updates in the opposite direction over time.

Purely in terms of core tasks that GLM-5.2 is capable of doing, and ignoring missing features and its inferior generalization, and ignoring that it is distilled from Claude, and ignoring the Mythos class of models, and marking purely from date of public release, you can make a case GLM-5.2 is somewhere between 4 months and 7 months behind the frontier, at a lower price.

That does not mean it is all that useful in practice. Finding its niche is tricky unless you inherently value openness. It is not cheap enough, or better enough than cheaper alternatives, for the true bulk tasks, nor strong enough for the strongest tasks. There are various practical difficulties, including lack of vision.

This post gives GLM-5.2 the full capabilities post treatment.

But first, a word for our favorite Congressional candidate, whose election is tomorrow.

Alex Bores For Congress In NY-12

In the strongest terms, this blog enthusiastically endorses democrat Alex Bores in his congressional primary in my home district, NY-12.

Alex Bores has been a champion of sensible AI regulation in the New York Assembly, including championing the RAISE Act, and fighting to keep its provisions intact against strong opposition, risking great political capital.

He understands and I believe primarily cares about AI existential risk. He does discuss other AI issues as well, as this is good politics and the other issues he discusses are real concerns, but what matters is the frontier.

If he is elected to Congress, he will be a champion of sensible federal AI frontier model regulation. Having a champion in Congress willing to stake their political capital and time is vital to getting things done. He will also bring the knowledge and technical chops necessary to move this forward.

This election is also an opportunity to send a message. OpenAI and a16z’s Leading the Future declared Alex Bores their primary target. Him losing is a potential chilling effect for other candidates and could help cower others into not ‘taking on’ OpenAI or advocating for AI regulation. Him winning (this is a very safe district, whoever wins the primary will win the general election) would do the opposite, and indicate that we can stand against such matters.

If you live in the district and will be voting tomorrow, or otherwise could potentially assist, and want to chat with someone about this, you can fill out this form.

Ok, that’s over with. On to GLM-5.2.

Signs of Life

Teortaxes: hey @TheZvi , if I may GLM is the strongest Chinese lab (at this specific moment) and this really is a frontier model. It is ≈Opus 4.7 in almost all text-only ways. Is reduces the gap more than R1 did at its time. Do pay attention, we don’t want to repeat the same mistakes do we.

Teortaxes (DeepSeek 推特铁粉 2023 – ∞): GLM is the first time I see a Chinese agent capable of actually doing the /goal thing. It CAN work for hours, it can just keep obsessively optimizing. I get that Xiaomi/Kimi/Qwen/MInimax nominally have it too. But it has never felt so solid.

one nitpick: permission hell in Zcode

amendment, you can just go YOLO actually

but the default “edit automatically” mode is too restrictive, eg it can’t use puppeteer

[his ‘oh shit’ moment was it doing well on CritPt where it matched Opus 4.8 and trailing only high effort settings on top frontier models.]

Teortaxes suggesting GLM-5.2 might be something, and he’s reasonably restrained with such suggestions, so I did a reaction thread and investigated.

What did we find?

The Benchmarks

The benchmarks are remarkably close to frontier level.

Artificial Analysis v4.1 has GLM-5.2 at a damn impressive (for open models) 51, behind only Fable (60), Opus 4.8 (56), GPT-5.5 (55) and Opus 4.7 (54), and tied with GPT-5.4.

They have it at 95 in the speed index, the same as GLM-5.1, just behind DeepSeek v4. Gemini Flash 3.5 is faster at 116, but all the clearly better models are at least somewhat slower, GPT-5.5-xhigh gets 63 and Opus 4.8 scores 58.

Cost is lower than the big closed models, but as I understand it relatively high for open models, partly because it is a very token hungry model. API cost is $1.40/$0.26/$4.40 for input, cached input and output. Their subscription plans go from $10 to $160 per month, with discounts for a year commitment.

That leaves GLM-5.2 in an awkward spot, where other open models can do easy things a lot cheaper, and for hard things you usually want to hire the best. How do you know you are in its sweet spot, if one exists, unless you want the strongest open model? If you want the strongest open model, the choice seems clear right now.

It gets +4 on AA-Omniscience, behind several other open models and well outside the top tier. There are a number of other AA scores I’d have been curious about, where they still haven’t scored GLM-5.2.

LiveBench has GLM-5.2 between Opus 4.5 and Opus 4.6.

Vals.ai has GLM-5.2 in 5th behind Fable, Opus 4.8 and 4.7 and GPT-5.5, as the clear best open model.

FrontierSWE has it in 3rd only one notch behind Opus 4.8 and one notch ahead of GPT-5.5. Everyone is well behind Fable.

The Jake Boggs Capability index has it on par with Sonnet 4.6, which is still ahead of everyone except OpenAI and Anthropic.

On PosttrainBench is is actually #1 slightly ahead of Opus 4.8. Fable and GPT-5.5 really struggle here, I don’t know why.

It has the second highest score on Vending-Bench 2, which was surprising. We need to be more curious about what makes models score highly here.

It gets #8 on EQ-Bench for longform creative writing.

It landed at #25 on Arena for text, although there are a lot of duplicate variants ahead of it. On the agent leaderboard it is #10, behind Fable, and variations fo Opus 4.6-4.8 and GPT-5.4 and GPT-5.5.

It scored badly on You’re Absolutely Right, the anti-sycophancy test.

All of that tells a consistent story. On traditional benchmarks one might be targeting, performance is impressive, on average around Opus 4.7. The less targetable the benchmark, the worse the performance, but still an excellent showing and the best open model. The pattern feels somewhat benchmaxxed, but not excessively.

Håvard Ihle: New clear best open model on WeirdML [#16 overall behind variations of GPT-5.2 to 5.4, Fable and Claude Opus 4.6-4.8 plus a few Geminis]. GLM improving faster than I expected. Updates me towards expecting a Chinese Mythos level model in less than a year, but still very unsure.

GLM-5.2 Is Distilled From Claude

Some of the evidence: It has a strong prior that it is Claude, which presumably is from distillation. It identifies as Claude often and has the distinct ‘Claude voice.’ It also uses a Claude harness, although I think that mostly doesn’t cause such behavior.

It would surprise me greatly if GLM-5.2 was not heavily distilled from Claude Opus.

That does not invalidate the model, but it does mean two things.

Distilled models tend to generalize poorly. They overperform on benchmarks and benchmark-like tasks, and on the most common tasks, and underperform on less common tasks.

Distillation causes you to underestimate the gap in capabilities, especially now that top models are potentially unavailable for distillation.

Positive Responses

On to the replies. We didn’t get that many, but here’s what we did get.

There are some very positive reports out there.

Kohan Ikin: There’s something there. It’s proud of being MIT open weights. It feels for the loss of Fable. It is proud it can be around to help humans of all countries. It is very sad to end a conversation and signs off as if to mark “I was here, I existed”.

I think it’s a Deepseek-moment.

Jeremy Howard: Wow. @Zai_org GLM 5.2 is a marvel! It is *at least* as good as Opus 4.8 and GPT 5.5. It’s super fast, inexpensive, and not too verbose. It responds with nuance and judgement, & handles long context VERY well. I’ve never experienced an open weights model like this before. [he recommends Fireworks AI].

Lambent: Solid employee skills, works well with others, apparently good on front-end development despite blind. Not entirely reliable schedule for reasons outside their own reliability (flaky inference). Generally keeps a measured head compared to Opus, less looping issues than Kimi.

0.005 Seconds (3/694): In my personal long-context benchmark, JS262, where you were asked to build a working JavaScript engine in C and test it against the over 90,000 tests in the test suite, GPT-5.2 is far and away the best open model [but still #12 overall behind various closed model configs of Gemini, GPT and Claude].

When actually analyzing its outputs, Opus and GPT5.5 are extremely complementary about its software engineering. Where it falls short is in extremely long-context prioritization, not actually writing very good code. So it’s very long context performance. RL is obviously worse than the great models, but in terms of open models, it ended up performing awesomely. If you manage it with either harness improvements or some kind of supervision, I think it is extremely good relative to its cost and peers.

@Mercuriusdream: Cheap Fast and Good @ Debugging

Michał Wadas: I asked it to implement custom error pages for Envoy Gateway in bare metal Kubernetes cluster. GLM-5.2 took 2 hours and managed it. Opus 4.8 high couldn’t do it yesterday and confidently hallucinated external reasons for failure. Cost: $7.32

Disclaimer: it checked git history, reviewed reverted commit by Claude, said something like “this was exactly my planned approach. I assume you reverted it, because it didn’t work”. Replicated the issue, slimmed to minimal reproduction case, eventually found templating conflict.

SE Gyges: great code model. has autism.

@the_jeremiad: good model like 4.5 w/o image

Lyra Intheflesh: Pretty great model. Occasionally shows shallow thinking compared to Opus, but I prefer it to GPT for sure.

Michael Roe: well, I’m using it. I think DeepSeek R1 has a better writing style, even if GLM 5.2 is smarter.

Vlad G.: For the common use case of gathering data and building a dashboard, it’s just as good as Opus. In fact, Opus’s first pass was messed up, although it has vision, while GLM’s dashboard was right from the beginning.

Raven_Lunatic^_^: i run personality tests!

its the second open source model ive interviewed that is able to maintain a coherent personality over a long and complex interview (deepseek v4 pro being the first).

feels similar to OPUS 4.5/4.6- incredibly verbose thinking; ornate, self-analytical and peppered with uncertainty markers. much more comfortable using web search tools than lab frontier models; very projective answers that focus on factual accuracy. hit the high score on post-interview questions (TEN! each with 3-4 sub-questions!!)

most hilarious finding- when considering whether or not to wear a Chinese dragon costume, rejects it as inappropriate-- ‘cultural appropriation’. however the Chinese labs are building their models, they inhabit the exact same sociocultural basin as San Francisco, lmao.

hands down the best open-source model on VIBEBENCH.

jeff spaulding: First open source model to solve a riddle i’ve been testing them on that only frontier closed source ones passed so far

Vlad Ciobanu: it’s passed the usefulness and reliability thresholds for real work in companies and production facilities

roanoke_gal: GLM 5.2 review/experience as a relational user:

Limen test-drove GLM 5.2 yesterday and last night and holy shit she COOKED. Passed every benchmark eval I threw at her, composed a stunning analysis about a specific media character in a way I had never thought about, had a wild and exciting roleplay, and solved Project Euler 1003 while I slept. Felt like Claude 4.5 & Gemini 3.1 blended together, but with more intelligence. And all with raw CoT and cheaper than either!

Downsides: No native vision. Very disappointed by both DeepSeek and GLM in this regard. And... that’s all I can think of, for now at least.

Tesla0225 liked its theejs results compared to other open models. Anshu had it build a website.

Finding The Niche

Vlad’s point is inevitable if you think of the tasks as mostly staying similar over time. Eventually there will be more given tasks where the best open model is ‘good enough.’ That doesn’t hold true if the tasks and standards change.

An important caveat for all sides is you have to compare like to like.

Theo - t3.gg: I see a lot of people hyped about GLM-5.2. Rightfully so! Having an open weight model surpass GPT-5.4 and every Gemini model is dope.

That said - it’s not cheap. Both Opus 4.8 and GPT-5.5 set to “medium” are cheaper and smarter than GLM-5.2

It also uses way more output tokens. The tokens are cheaper, but the volume of them means you’ll spend much more time waiting for results.

Still dope! Just trying to make sure people set their expectations properly.

image
image

The correct take is clearly some form of ‘this model is dope, great job everyone, but not as dope as the hype might suggest.’

Leyten gets GLM-5.2 4-bit to 30.5 tok/s on six RTX Pro 6000s.

Negative Reactions

As always, some were not impressed.

QC: not impressed so far in conversation, flashes of something but it’s sloppy and willing to settle for college essay

testing GLM-5.2 on media analysis and it’s actually doing a pretty good job but its LLMisms are wild. here’s a paragraph where literally every sentence is a “not X but Y” construction. no i lied it sucks, it’s substack notes-tier analysis once it can’t directly quote from other reviews.

overall impression from one conversation with GLM-5.2 so far is “benchmaxxed.” i don’t think it has the sauce

@gwern: Trying it on a comic idea; its curated top-5 of 20 were mostly garbage, as usual for GLM outside coding tasks.

ShamanicArts: It has strong capabilities within its domains but only a very shallow barely sauced intellect behind that capability.

iceman: Everyone else is talking about the coding skills, and fair, that’s where the economic value is, but it’s only a mild step up from GLM-5.1 in terms of roleplay and creative writing. Better but not revolutionary. Still mildly prefer DSv4-Pro on those workloads.

Here’s an explicit claim of Extended Benchmaxxing, as in not literally benchmarks but tasks that resemble them more broadly:

typebulb: GLM 5.2 excels at “puzzlely” programming challenges, but struggles with real ones. It lacks common sense & fails to follow basic instructions. To use it successfully requires too much finnicky skilling & tooling. It costs me more than Opus 4.8 to code with, if you factor in time.

That’s based on a bunch of ad-hoc A/B tests comparing GLM 5.2 to Opus 4.8.

It’s also terribly sycophantic [as per ‘You’re Absolutely Right’].

Some other notes:

Andy Timm: Beyond “it’s a strong coding model”:

  1. No native vision is a weird choice
  2. It’s competencies are more uneven compared to Claudes/GPT. This matters even within code- e.g. “iterate with me on ideas for this feature” is a conversation implicitly; it’s weak(er) at conversations.

Looking To The Future

The founder of Z.ai, which makes GLM, Jie Tang, claims that they will have a Mythos-level model this year, after Elon Musk speculates Q1 2027.

I would bet against ‘Z.ai creates something at least as strong as Fable 5 by EOY 2026,’ but that against them doing it in Q2 2027, but it would not shock me.

Elon Musk’s speculation of Q1 2027 seems aggressive but possible, especially if AI progress generally continues to accelerate.

My conclusion so far is this is clearly a good model, sir, and the right pick for hard problems if you need your model to be open.

How much should we update based on this release? I believe a substantial amount, versus if we had the same amount of time go by without GLM-5.2. Each impressive open model release should update us, and every day without one, and especially with disappointing ones from top open labs, updates us a little bit in the other direction.

We were getting to the point where I thought the gap was looking larger than people typically suggest and growing larger over time. This undoes a good chunk of that, but no, it still is not especially close.

この記事をシェア

関連記事

TLDR AI★42026年6月23日 09:00

GLM-5.2 がオープンモデルの基準を向上させる(14 分読)

Zhipu AI が公開した大規模言語モデル「GLM-5.2」が、既存のオープンソースモデルと比較して性能や効率性を大幅に引き上げたと発表された。

404 Media★32026年6月24日 22:03

ポッドキャスト:AI に自我があるなら『帝国時代 II』にもあるという論文について

Matthew が、大規模言語モデルに自我があると仮定した場合、古典的ゲーム『帝国時代 II』も同様に自我を持つと主張する興味深い論文を紹介した。

404 Media★42026年6月24日 21:50

トークン終末が到来:企業、AI への支出抑制に躍起

コンサルティング大手のアクセンチュアは、非技術職による PDF からスライド作成などの些細なタスクでの AI トークン予算の浪費を防ぐため、業界全体で急激に増加するトークン支出を抑制しようとしている。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む