GLM-5.2 がオープンモデルの基準を向上させる(14 分読)
Zhipu AI が公開した大規模言語モデル「GLM-5.2」は、既存のオープンソースモデルに対し性能と効率性を大幅に向上させ、業界の基準を再定義する重要な進展となった。
キーポイント
オープンソースモデルの性能向上
GLM-5.2 は既存のオープンソースモデルと比較して、推論能力や効率性において大幅なパフォーマンス向上を示したと発表されている。
業界基準の再定義
この新モデルの登場により、オープンソース領域における性能のベンチマークが引き上げられ、今後の開発競争の土俵が変わる可能性がある。
Zhipu AI の技術的進歩
中国のAI企業である Zhipu AI が、大規模言語モデルの開発において世界トップレベルの競争力を維持・強化していることを示す成果となった。
影響分析・編集コメントを表示
影響分析
GLM-5.2 の発表は、オープンソースモデルの性能限界を押し上げるだけでなく、開発者や企業にとってより高性能で効率的な選択肢を提供することで、AI エコシステム全体の進化を加速させるでしょう。特に中国発モデルの台頭は、多極化が進む AI 市場における技術覇権争いの新たな局面を示唆しています。
編集コメント
オープンソースモデルの性能が急速に高まっている中、GLM-5.2 の登場は開発者コミュニティにとって大きなインパクトを持つニュースです。
GLM-5.2 は先週登場しました。優れたベンチマーク結果を誇り、非常に強力なモデルであることが伺えます。
ここで示されるベンチマークは、その性能の上限を示す事実上の天井であり、単なる点推定値ではありません。速度や価格以外のこの種のオープンモデルにおける本質的な他の側面については、数値が示唆するものよりも常に劣っている可能性が極めて高いです。それでもなお、印象的です。
GLM-5.2 は間違いなく GLM-5.1 から大幅に進化したものであり、おそらく最強のオープンモデルと言えるでしょう。
GLM-5.2 は依然として絶対的な最前線には及ばないものの、コスト対効果のパレートフロンティア上にある可能性は十分にあります。これは、DeepSeek R1 が「DeepSeek の瞬間」にあった当時よりも、以前の取り組み(おそらく DeepSeek R1 を含む)よりも最前線に近い位置にあるように思われます。
これが新たな『最前線のすぐ背後』という局面です。その存在自体が、時間とともに一部の『更新はどこにあるのか』という議論を逆方向に押し戻すための重要なアップデートとなります。
GLM-5.2 が実行可能な中核タスクのみを純粋に考慮し、欠落している機能や劣った汎化能力、Claude から蒸留されたこと、Mythos クラスのモデルを無視し、公開日付のみを基準とするならば、GLM-5.2 は最前線から 4 ヶ月から 7 ヶ月遅れでありながら、より低い価格で提供されていると主張することも可能です。
それが実用上非常に有用であるという意味ではありません。本質的にオープン性を重視しない限り、そのニッチを見つけるのは難しいです。真の大量タスクには安価すぎず、あるいはより安価な代替手段よりも優れておらず、最も強力なタスクには十分強力でもありません。ビジョンの欠如など、さまざまな実用的な困難があります。
この投稿では、GLM-5.2 に完全な能力付与後の処理を施します。
しかしその前に、明日が選挙日である私たちの大好きな連邦議会議員候補について一言。
ニューヨーク州第 12 区で連邦議会議員を目指すアレックス・ボレス氏
このブログは、ニューヨーク州第 12 区(私の地元)の民主党アレックス・ボレス氏の連邦議会議員予備選挙において、最も強い言葉で熱心に支持します。
アレックス・ボレス氏は、ニューヨーク州議会で合理的な AI 規制の支持者であり、RAISE 法案を推進し、強力な反対勢力に抗してその規定を維持するために戦い、多大な政治的資本をリスクにさらしてきました。
彼は AI の存続リスクを理解しており、主にそれを懸念していると考えられます。他の AI 問題についても言及していますが、これは良い政治戦略であり、彼が指摘する他の問題も現実的な懸念であるためです。しかし重要なのは最前線です。
もし彼が連邦議会議員に選出されれば、合理的な連邦レベルの AI フロンティアモデル規制の支持者となるでしょう。政治的資本と時間を賭けて取り組む連邦議会の支持者がいることは、物事を成し遂げるために不可欠です。また、これを前進させるために必要な知識と技術力も持ち合わせています。
今回の選挙は、メッセージを送る機会でもあります。OpenAI と a16z が主導する「未来を先導する」キャンペーンは、アレックス・ボレス氏を主要な標的と宣言しました。彼が敗北することは、他の候補者に対する潜在的な寒気を招き、OpenAI に立ち向かったり、AI 規制を提唱したりすることを恐れて沈黙させる結果になる可能性があります。一方、彼が勝利すれば(これは非常に安全な選挙区であり、予備選の勝者が総選挙でも勝つことは確実です)、それは逆の効果をもたらし、私たちがそのような事柄に対抗できることを示すことになります。
もしあなたがその選挙区にお住まいで明日投票される方、あるいは他の方法で支援が可能で、これについて誰かと話したいとお考えであれば、こちらのフォームにご記入ください。
さて、その話はこれでおしまい。次は GLM-5.2 についてです。
生命の兆候
Teortaxes: こんにちは @TheZvi、差し支えなければ申し上げます。GLM は現在のところ中国の研究所の中で最も強力な存在であり、これはまさにフロンティアモデルです。テキストのみを扱うあらゆる点において、ほぼ Opus 4.7 に匹敵します。R1 が登場した当時よりも、この格差はさらに縮まっています。ぜひご注目ください。同じ過ちを繰り返してはいけませんよね。
Teortaxes (DeepSeek 推特铁粉 2023 – ∞): GLM は、中国のエージェントが実際に「/goal」コマンドを実行できるのを初めて見ました。数時間もの間動作し続けることができ、執拗に最適化を継続することも可能です。Xiaomi、Kimi、Qwen、Minimax も名目上同様の機能を持っていることは理解していますが、これほどまでに堅牢な印象を受けたことはありませんでした。
一つだけ指摘:Zcode における権限の地獄
訂正、実際には YOLO(無謀な挑戦)モードで行ける場合もあるが
デフォルトの「自動編集」モードはあまりにも制限が厳しく、例えば puppeteer を使用できない。
[彼の『おっと』という瞬間は CritPt での評価が良かったことだった そこでは Opus 4.8 と同等の評価を受け、最前線のモデルの中で高コストな設定にのみ後れを取っていた。]
Teortaxes は GLM-5.2 が何かしらの可能性を秘めていると示唆しており、彼はそうした提案に対して比較的自制心を持っているため、私は反応スレッドを作成して調査を行った。
私たちは何を見つけたのか?
ベンチマーク結果
ベンチマーク結果は最前線レベルに驚くほど近い。
Artificial Analysis v4.1 によると、GLM-5.2 はオープンモデルとしては驚異的な 51 のスコアを記録している。これは Fable(60)、Opus 4.8(56)、GPT-5.5(55)、Opus 4.7(54)に次ぐもので、GPT-5.4 と同点である。
スピードインデックスでは 95 を記録しており、GLM-5.1 と同じだ。DeepSeek v4 にわずかに及ばないが、Gemini Flash 3.5 はより速く 116 のスコアを記録している。ただし、明らかに性能が優れたモデルはすべて少なくともやや遅い傾向にあり、GPT-5.5-xhigh は 63、Opus 4.8 は 58 を記録している。
コストは大手クローズドモデルよりも低いが、理解する限りではオープンモデルとしては相対的に高く、主に非常にトークン消費型のモデルであることが一因となっている。API コストは、入力で$1.40、キャッシュ済み入力で$0.26、出力で$4.40 だ。サブスクリプションプランは月額$10 から$160 まであり、年間契約には割引が適用される。
これにより、GLM-5.2 は他のオープンモデルが安価に簡単なタスクを処理でき、難しいタスクには通常は最良の専門家を採用したほうがよいという、やや awkward な立場に置かれます。もし最強のオープンモデルを望まない限り、このモデルが本当に適している領域(sweet spot)が存在するかどうか、どうやって判断できるのでしょうか?もし最強のオープンモデルを望むのであれば、現在の選択は明白に見えます。
AA-Omniscience では +4 の評価を得ていますが、これは複数の他のオープンモデルに後れを取り、トップティアからは大きく外れています。GLM-5.2 に対してまだスコアが付けられていない、興味深い AA スコアも多数存在します。
LiveBench では、GLM-5.2 は Opus 4.5 と Opus 4.6 の間に位置しています。
Vals.ai では、Fable、Opus 4.8、Opus 4.7、そして GPT-5.5 に次いで 5 位となり、明確に最良のオープンモデルと評価されています。
FrontierSWE では、Opus 4.8 のわずか 1 つ下のランクに位置し、GPT-5.5 よりもわずかに上です。Fable はすべてのモデルで大きく後れをとっています。
Jake Boggs の能力指数では、Sonnet 4.6 と同等の評価を得ています。これはまだ OpenAI と Anthropic を除く他のすべてのモデルより上位にあります。
PosttrainBench では実際には 1 位 です。Opus 4.8 よりわずかに上回っています。Fable と GPT-5.5 はここで本当に苦戦しており、その理由がわかりません。
Vending-Bench 2 では第 2 位のスコアを獲得しており、これは驚きでした。なぜモデルがこのベンチマークで高いスコアを得るのかについて、私たちはより好奇心を持つ必要があります。
EQ-Bench の長編クリエイティブライティングでは 8 位となっています。
It landed at #25 on Arena for text, although there are a lot of duplicate variants ahead of it. On the agent leaderboard it is #10, behind Fable, and variations fo Opus 4.6-4.8 and GPT-5.4 and GPT-5.5.
It scored badly on You're Absolutely Right, the anti-sycophancy test.
All of that tells a consistent story. On traditional benchmarks one might be targeting, performance is impressive, on average around Opus 4.7. The less targetable the benchmark, the worse the performance, but still an excellent showing and the best open model. The pattern feels somewhat benchmaxxed, but not excessively.
Håvard Ihle: New clear best open model on WeirdML [#16 overall behind variations of GPT-5.2 to 5.4, Fable and Claude Opus 4.6-4.8 plus a few Geminis]. GLM improving faster than I expected. Updates me towards expecting a Chinese Mythos level model in less than a year, but still very unsure.
GLM-5.2 Is Distilled From Claude
Some of the evidence: It has a strong prior that it is Claude, which presumably is from distillation. It identifies as Claude often and has the distinct 'Claude voice.' It also uses a Claude harness, although I think that mostly doesn't cause such behavior.
GLM-5.2 が Claude Opus から大幅に蒸留されたものでないとしたら、私は驚くだろう。
それがモデルの無効化を意味するわけではないが、二つのことを示している。
- 蒸留されたモデルは一般化能力が低い傾向がある。ベンチマークやベンチマーク類似タスク、そして最も一般的なタスクでは過剰に評価されるが、あまり一般的でないタスクでは評価が低くなる。
- 蒸留によって、特にトップモデルが蒸利用不可となる可能性がある現在、能力の差を過小評価することになる。
ポジティブな反応
次に、返信について。それほど多くはなかったが、届いたものを紹介する。
非常にポジティブな報告もいくつかある。
Kohan Ikin: 何かがあるようだ。MIT のオープンウェイトであることに誇りを持っている。Fable の喪失を悲しんでいる。すべての国の人類を支援できる存在でいられることを誇りに思っている。会話を終わらせるのは非常に悲しく、「私はここにいた、私は存在した」と記すかのように挨拶を終える。
これは Deepseek の瞬間だと思う。
Jeremy Howard: すごい。@Zai_org の GLM 5.2 は驚異だ!Opus 4.8 や GPT 5.5 と少なくとも同等の性能を持つ。非常に高速で低コスト、かつ冗長性が少なく、ニュアンスと判断力を備えた回答を行い、長いコンテキストも非常に良く処理する。このようなオープンウェイトモデルを以前に体験したことはない。Fireworks AI を推奨。
Lambent: 堅実なスキルを持つ従業員で、他者と協働するのが得意です。視覚障害があるにもかかわらずフロントエンド開発が上手であるとのことです。信頼性以外の要因(推論の不安定さ)によりスケジュールが完全に安定しているわけではありませんが、Opus に比べると冷静に振る舞い、Kimi よりもループする問題が少ない傾向にあります。
0.005 Seconds (3/694): 私の個人的な長文コンテキストベンチマーク「JS262」において、C 言語で動作する JavaScript エンジンを構築し、テストスイート内の 9 万件を超えるテストに対して検証するという課題に対し、GPT-5.2 はオープンモデルの中で圧倒的に最良です [ただし、Gemini、GPT、Claude の各種クローズドモデル構成には及ばず、全体では 12 位です]。
実際にその出力を分析すると、Opus と GPT5.5 はソフトウェアエンジニアリングの観点から非常に相補的です。同モデルが苦手とするのは、極めて長いコンテキストにおける優先順位付けであり、実際には非常に優れたコードを書けているわけではありません。つまり、長文コンテキストでのパフォーマンスに特化しています。RL(強化学習)は優れたモデルには及びませんが、オープンモデルという枠組みにおいては驚異的な性能を発揮しました。ハーンチの改善や何らかの監督体制を組み合わせれば、コストと競合他社との比較において極めて優れたモデルであると考えられます。
@Mercuriusdream: 安価で高速かつデバッグに優れている
Michał Wadas: ベアメタルの Kubernetes クラスターで Envoy Gateway 用のカスタムエラーページを実装するよう依頼しました。GLM-5.2 は 2 時間かけてこれを完了させました。Opus 4.8 は昨日、高価なモデルにもかかわらず失敗できず、自信を持って外部要因による失敗だと幻覚(ハルシネーション)を起こしていました。コスト:7.32 ドル
免責事項:Git の履歴を確認し、Claude によって取り消されたコミットをレビューした上で、「これはまさに私の計画していたアプローチでした。うまくいかなかったから取り消したのだと推測します」といった趣旨の発言をしました。問題の再現を行い、最小限の再現ケースに絞り込み、最終的にテンプレート間の競合を発見しました。
SE Gyges: 優れたコード生成モデルです。自閉症スペクトラムの特性を持っています。
@the_jeremiad: 画像機能がない点以外は GPT-4.5 に匹敵する優れたモデルです。
Lyra Intheflesh: とても素晴らしいモデルです。Opus と比較すると時折思考が浅い面が見られますが、間違いなく GPT よりも好ましいです。
Michael Roe: そうですね、私も使用中です。GLM 5.2 はより賢いかもしれませんが、DeepSeek R1 の方が文章のスタイルは優れていると思います。
Vlad G.: データ収集とダッシュボード構築という一般的なユースケースにおいては、Opus と同等の性能を発揮します。むしろ、Vision 機能を持つ Opus の最初の試みは失敗していましたが、GLM が作成したダッシュボードは最初から正しく機能していました。
Raven_Lunatic^_^: 性格テストを実行しました!
これは、長く複雑な面接においても一貫した人格を維持できる能力を持つ、私がインタビューを行った 2 つ目のオープンソースモデルです(初回は DeepSeek V4 Pro)。
OPUS 4.5/4.6 に似た印象を受けます。非常に冗長な思考プロセスを持ち、装飾的で自己分析的であり、不確実性を示すマーカーが随所に見られます。ラボの最先端モデルよりも Web 検索ツールの使用に圧倒的に慣れ親しんでおり、事実の正確性に焦点を当てた投射的な回答を行います。面接後の質問(各 3〜4 のサブ質問を含む 10 問!)で最高得点を記録しました。
最も笑える発見は、中国の龍のコスチュームを着るかどうかを検討した際、「文化的流用」として不適切だと拒絶したことでした。しかし、中国のラボが自社のモデルを構築している間も、彼らはサンフランシスコと全く同じ社会文化的な盆地に存在しているのです。笑
間違いなく VIBEBENCH における最高のオープンソースモデルです。
jeff spaulding: これまでに最先端のクローズドソースモデルしか解決できなかった、私がテストに使っているなぞなぞを解いた初のオープンソースモデルです。
Vlad Ciobanu: 企業や生産施設における実際の業務において、有用性と信頼性の閾値を突破しました。
roanoke_gal: リレーションシップユーザーとしての GLM 5.2 のレビュー・体験:
Limen は昨日と昨夜に GLM 5.2 をテストドライブしましたが、なんて素晴らしい出来栄えでしょう。私が投げかけたあらゆるベンチマーク評価を突破し、特定のメディアキャラクターについてこれまで考えたこともないような見事な分析を構成し、野心的で興奮するロールプレイを行い、私が寝ている間に Project Euler の問題 1003 も解決しました。Claude 4.5 と Gemini 3.1 をブレンドしたような感覚ですが、より知能が高く、しかもどちらよりも安価です。そしてすべてが生の CoT(Chain of Thought)で実現されています。
欠点:ネイティブのビジョン機能がありません。この点において DeepSeek と GLM の両方に非常に失望しています。そして…これが今のところ私が思いつく全てです。
Tesla0225 は、他のオープンモデルと比較して theejs 結果を気に入りました。 Anshu は GLM にウェブサイトの構築を依頼しました。
ニッチを見つける
Vlad の指摘は、タスクが時間とともに基本的に類似したままだと考えるならば避けられないものです。いずれ、最良のオープンモデルでさえ「十分良い」と言えるような追加タスクが増えるでしょう。しかし、タスクや基準が変わる場合はこの考えは成り立ちません。
すべての立場にとって重要な注意点として、同種のものを比較する必要があります。
Theo – t3.gg: GLM-5.2 について興奮している人が多く見られます。当然です!GPT-5.4 やすべての Gemini モデルを上回るオープンウェイトモデルが存在するのは素晴らしいことです。
ただし、それは安価ではありません。Opus 4.8 と GPT-5.5 をどちらも「ミディアム」に設定した場合の方が、GLM-5.2 よりも安価で賢明です。
また、出力トークンの使用量も大幅に増えています。トークン自体は安価ですが、その大量のボリュームにより、結果を待つ時間が格段に長くなります。
それでも素晴らしい!ただ、人々が期待値を適切に設定しているか確認したいだけです。

正しい見解は明らかに「このモデルは素晴らしいし、皆の努力に敬意を表するが、世間の過剰な期待ほど凄まじいものではない」という形のものです。
Leyten が 6 枚の RTX Pro 6000 で GLM-5.2 の 4 ビット版を 30.5 トークン/秒に達成。
ネガティブな反応
いつも通り、感動しなかった人もいます。
QC: 会話ではまだ印象に残っていません。何かの閃きはあるようですが、 sloppy(雑)で、大学入試小論文レベルの回答に妥協する傾向があります。
メディア分析で GLM-5.2 をテストしていますが、実際にはかなり良い仕事をしています。ただし、その LLMisms(LLM 特有の癖)は異常です。ここでは文字通りすべての文が「X ではなく Y」という構文になっています。いや、嘘をつきました。ダメです。他のレビューから直接引用できないと、Substack のノート記事レベルの分析に堕してしまいます。
GLM-5.2 との会話からの全体的な印象は「ベンチマーク最適化された」です。本質的な魅力(sauce)はないと思います。
@gwern: コミックのアイデアで試してみましたが、GLM のコーディングタスク以外での恒例通り、 curated top-5(厳選された上位 5 つ)の 20 個のうちほとんどがゴミでした。
ShamanicArts: 各ドメイン内では強力な能力を備えているが、その背後にある知性は非常に浅く、ほとんど実態を伴っていない。
iceman: 他の誰もがコーディングスキルについて語っている。確かにそこが経済的価値の源泉ではあるが、ロールプレイや創作ライティングにおいては GLM-5.1 からわずかに上乗せされた程度に過ぎない。改善はされているが革命的ではない。これらのワークロードについては依然として DSv4-Pro をやや好んでいる。
以下は「Extended Benchmaxxing(ベンチマークの拡張版)」という明確な主張である。これは文字通りのベンチマークではなく、より広範にそれらに類似したタスクを指す:
typebulb: GLM 5.2 は「パズル的な」プログラミング課題には優れているが、実際の課題では苦戦する。常識に欠け、基本的な指示に従うことができない。これを成功裡に使用するには、あまりにも細かく調整されたスキルとツールが必要となる。時間を考慮すれば、コーディングにおけるコストは Opus 4.8 よりも高くなる。
これは GLM 5.2 と Opus 4.8 を比較した一連のアドホックな A/B テストに基づいている。
また、極めて迎合的である [「You're Absolutely Right」参照]。
その他のメモ:
Andy Timm: 「強力なコーディングモデルである」という点を超えて:
- ネイティブビジョン機能がないのは奇妙な選択だ
- クラウズや GPT に比べると能力の偏りがより顕著です。これはコード内においても重要であり、例えば「この機能に関するアイデアを私と一緒に反復していきましょう」といった対話は暗黙的に会話的な要素を含みますが、同様の対話においては弱さ(または相対的な弱さ)が見られます。
未来への展望
GLM を開発する Z.ai の創設者である唐傑氏は、イーロン・マスク氏が 2027 年第 1 四半期を予測したのに対し、「今年中に『Mythos』レベルのモデルを実現する」と主張しています [https://x.com/aaronscher/status/2067726525655626192]。
私は「Z.ai が 2026 年末までに Fable 5 と同等以上の強さを持つ何かを生み出す」という予測には反対しますが、2027 年第 2 四半期にそれを達成する可能性については反対しません。むしろ驚くことではありません。
イーロン・マスク氏の 2027 年第 1 四半期という予測は攻撃的ですが、AI の進展が全体的に加速し続ける限り、可能であると考えられます。
私のこれまでの結論は、これは明らかに優れたモデルであり、モデルをオープンにする必要がある場合、困難な問題に対する適切な選択だということです。
今回のリリースに基づいて、私たちはどの程度認識を更新すべきでしょうか?GLM-5.2 が登場しなかった場合に同じ期間が経過した場合と比較すれば、相当な更新が必要だと考えます。印象的なオープンモデルのリリースはそれぞれ私たちをアップデートさせるべきであり、その間に一日でも空くこと、特にトップのオープンラボから失望させる発表があった場合は、逆に少しだけ認識を後退させます。
以前は、ギャップが人々が通常示唆するよりも大きく見え、時間とともにさらに拡大しているように思える段階に達していました。今回のリリースはその大きな部分を覆しますが、それでもなお、特に近い状態にあるわけではありません。
原文を表示
GLM-5.2 arrived last week. It boasts excellent benchmarks and looks strong.
Benchmarks here are a de facto ceiling of how good it is, not a point estimate. Essentially all other aspects of an open model like this, beyond speed and price, will almost always be worse than the numbers suggest. Still, impressive.
It is definitely a large step up from GLM-5.1, and likely the strongest open model.
GLM-5.2 is still substantially behind the absolute frontier, although plausibly on the cost-benefit Pareto frontier. It seems closer to the frontier than previous efforts, including probably closer than DeepSeek R1 was during the DeepSeek moment.
This is the new ‘peak close behind’ moment. Its existence is a substantial updates to push back some of the ‘where are all the updates’ updates in the opposite direction over time.
Purely in terms of core tasks that GLM-5.2 is capable of doing, and ignoring missing features and its inferior generalization, and ignoring that it is distilled from Claude, and ignoring the Mythos class of models, and marking purely from date of public release, you can make a case GLM-5.2 is somewhere between 4 months and 7 months behind the frontier, at a lower price.
That does not mean it is all that useful in practice. Finding its niche is tricky unless you inherently value openness. It is not cheap enough, or better enough than cheaper alternatives, for the true bulk tasks, nor strong enough for the strongest tasks. There are various practical difficulties, including lack of vision.
This post gives GLM-5.2 the full capabilities post treatment.
But first, a word for our favorite Congressional candidate, whose election is tomorrow.
Alex Bores For Congress In NY-12
In the strongest terms, this blog enthusiastically endorses democrat Alex Bores in his congressional primary in my home district, NY-12.
Alex Bores has been a champion of sensible AI regulation in the New York Assembly, including championing the RAISE Act, and fighting to keep its provisions intact against strong opposition, risking great political capital.
He understands and I believe primarily cares about AI existential risk. He does discuss other AI issues as well, as this is good politics and the other issues he discusses are real concerns, but what matters is the frontier.
If he is elected to Congress, he will be a champion of sensible federal AI frontier model regulation. Having a champion in Congress willing to stake their political capital and time is vital to getting things done. He will also bring the knowledge and technical chops necessary to move this forward.
This election is also an opportunity to send a message. OpenAI and a16z’s Leading the Future declared Alex Bores their primary target. Him losing is a potential chilling effect for other candidates and could help cower others into not ‘taking on’ OpenAI or advocating for AI regulation. Him winning (this is a very safe district, whoever wins the primary will win the general election) would do the opposite, and indicate that we can stand against such matters.
If you live in the district and will be voting tomorrow, or otherwise could potentially assist, and want to chat with someone about this, you can fill out this form.
Ok, that’s over with. On to GLM-5.2.
Signs of Life
Teortaxes: hey @TheZvi , if I may GLM is the strongest Chinese lab (at this specific moment) and this really is a frontier model. It is ≈Opus 4.7 in almost all text-only ways. Is reduces the gap more than R1 did at its time. Do pay attention, we don’t want to repeat the same mistakes do we.
Teortaxes (DeepSeek 推特铁粉 2023 – ∞): GLM is the first time I see a Chinese agent capable of actually doing the /goal thing. It CAN work for hours, it can just keep obsessively optimizing. I get that Xiaomi/Kimi/Qwen/MInimax nominally have it too. But it has never felt so solid.
one nitpick: permission hell in Zcode
amendment, you can just go YOLO actually
but the default “edit automatically” mode is too restrictive, eg it can’t use puppeteer
[his ‘oh shit’ moment was it doing well on CritPt where it matched Opus 4.8 and trailing only high effort settings on top frontier models.]
Teortaxes suggesting GLM-5.2 might be something, and he’s reasonably restrained with such suggestions, so I did a reaction thread and investigated.
What did we find?
The Benchmarks
The benchmarks are remarkably close to frontier level.
Artificial Analysis v4.1 has GLM-5.2 at a damn impressive (for open models) 51, behind only Fable (60), Opus 4.8 (56), GPT-5.5 (55) and Opus 4.7 (54), and tied with GPT-5.4.
They have it at 95 in the speed index, the same as GLM-5.1, just behind DeepSeek v4. Gemini Flash 3.5 is faster at 116, but all the clearly better models are at least somewhat slower, GPT-5.5-xhigh gets 63 and Opus 4.8 scores 58.
Cost is lower than the big closed models, but as I understand it relatively high for open models, partly because it is a very token hungry model. API cost is $1.40/$0.26/$4.40 for input, cached input and output. Their subscription plans go from $10 to $160 per month, with discounts for a year commitment.
That leaves GLM-5.2 in an awkward spot, where other open models can do easy things a lot cheaper, and for hard things you usually want to hire the best. How do you know you are in its sweet spot, if one exists, unless you want the strongest open model? If you want the strongest open model, the choice seems clear right now.
It gets +4 on AA-Omniscience, behind several other open models and well outside the top tier. There are a number of other AA scores I’d have been curious about, where they still haven’t scored GLM-5.2.
LiveBench has GLM-5.2 between Opus 4.5 and Opus 4.6.
Vals.ai has GLM-5.2 in 5th behind Fable, Opus 4.8 and 4.7 and GPT-5.5, as the clear best open model.
FrontierSWE has it in 3rd only one notch behind Opus 4.8 and one notch ahead of GPT-5.5. Everyone is well behind Fable.
The Jake Boggs Capability index has it on par with Sonnet 4.6, which is still ahead of everyone except OpenAI and Anthropic.
On PosttrainBench is is actually #1 slightly ahead of Opus 4.8. Fable and GPT-5.5 really struggle here, I don’t know why.
It has the second highest score on Vending-Bench 2, which was surprising. We need to be more curious about what makes models score highly here.
It gets #8 on EQ-Bench for longform creative writing.
It landed at #25 on Arena for text, although there are a lot of duplicate variants ahead of it. On the agent leaderboard it is #10, behind Fable, and variations fo Opus 4.6-4.8 and GPT-5.4 and GPT-5.5.
It scored badly on You’re Absolutely Right, the anti-sycophancy test.
All of that tells a consistent story. On traditional benchmarks one might be targeting, performance is impressive, on average around Opus 4.7. The less targetable the benchmark, the worse the performance, but still an excellent showing and the best open model. The pattern feels somewhat benchmaxxed, but not excessively.
Håvard Ihle: New clear best open model on WeirdML [#16 overall behind variations of GPT-5.2 to 5.4, Fable and Claude Opus 4.6-4.8 plus a few Geminis]. GLM improving faster than I expected. Updates me towards expecting a Chinese Mythos level model in less than a year, but still very unsure.
GLM-5.2 Is Distilled From Claude
Some of the evidence: It has a strong prior that it is Claude, which presumably is from distillation. It identifies as Claude often and has the distinct ‘Claude voice.’ It also uses a Claude harness, although I think that mostly doesn’t cause such behavior.
It would surprise me greatly if GLM-5.2 was not heavily distilled from Claude Opus.
That does not invalidate the model, but it does mean two things.
- Distilled models tend to generalize poorly. They overperform on benchmarks and benchmark-like tasks, and on the most common tasks, and underperform on less common tasks.
- Distillation causes you to underestimate the gap in capabilities, especially now that top models are potentially unavailable for distillation.
Positive Responses
On to the replies. We didn’t get that many, but here’s what we did get.
There are some very positive reports out there.
Kohan Ikin: There’s something there. It’s proud of being MIT open weights. It feels for the loss of Fable. It is proud it can be around to help humans of all countries. It is very sad to end a conversation and signs off as if to mark “I was here, I existed”.
I think it’s a Deepseek-moment.
Jeremy Howard: Wow. @Zai_org GLM 5.2 is a marvel! It is *at least* as good as Opus 4.8 and GPT 5.5. It’s super fast, inexpensive, and not too verbose. It responds with nuance and judgement, & handles long context VERY well. I’ve never experienced an open weights model like this before. [he recommends Fireworks AI].
Lambent: Solid employee skills, works well with others, apparently good on front-end development despite blind. Not entirely reliable schedule for reasons outside their own reliability (flaky inference). Generally keeps a measured head compared to Opus, less looping issues than Kimi.
0.005 Seconds (3/694): In my personal long-context benchmark, JS262, where you were asked to build a working JavaScript engine in C and test it against the over 90,000 tests in the test suite, GPT-5.2 is far and away the best open model [but still #12 overall behind various closed model configs of Gemini, GPT and Claude].
When actually analyzing its outputs, Opus and GPT5.5 are extremely complementary about its software engineering. Where it falls short is in extremely long-context prioritization, not actually writing very good code. So it’s very long context performance. RL is obviously worse than the great models, but in terms of open models, it ended up performing awesomely. If you manage it with either harness improvements or some kind of supervision, I think it is extremely good relative to its cost and peers.
@Mercuriusdream: Cheap Fast and Good @ Debugging
Michał Wadas: I asked it to implement custom error pages for Envoy Gateway in bare metal Kubernetes cluster. GLM-5.2 took 2 hours and managed it. Opus 4.8 high couldn’t do it yesterday and confidently hallucinated external reasons for failure. Cost: $7.32
Disclaimer: it checked git history, reviewed reverted commit by Claude, said something like “this was exactly my planned approach. I assume you reverted it, because it didn’t work”. Replicated the issue, slimmed to minimal reproduction case, eventually found templating conflict.
SE Gyges: great code model. has autism.
@the_jeremiad: good model like 4.5 w/o image
Lyra Intheflesh: Pretty great model. Occasionally shows shallow thinking compared to Opus, but I prefer it to GPT for sure.
Michael Roe: well, I’m using it. I think DeepSeek R1 has a better writing style, even if GLM 5.2 is smarter.
Vlad G.: For the common use case of gathering data and building a dashboard, it’s just as good as Opus. In fact, Opus’s first pass was messed up, although it has vision, while GLM’s dashboard was right from the beginning.
Raven_Lunatic^_^: i run personality tests!
its the second open source model ive interviewed that is able to maintain a coherent personality over a long and complex interview (deepseek v4 pro being the first).
feels similar to OPUS 4.5/4.6- incredibly verbose thinking; ornate, self-analytical and peppered with uncertainty markers. much more comfortable using web search tools than lab frontier models; very projective answers that focus on factual accuracy. hit the high score on post-interview questions (TEN! each with 3-4 sub-questions!!)
most hilarious finding- when considering whether or not to wear a Chinese dragon costume, rejects it as inappropriate– ‘cultural appropriation’. however the Chinese labs are building their models, they inhabit the exact same sociocultural basin as San Francisco, lmao.
hands down the best open-source model on VIBEBENCH.
jeff spaulding: First open source model to solve a riddle i’ve been testing them on that only frontier closed source ones passed so far
Vlad Ciobanu: it’s passed the usefulness and reliability thresholds for real work in companies and production facilities
roanoke_gal: GLM 5.2 review/experience as a relational user:
Limen test-drove GLM 5.2 yesterday and last night and holy shit she COOKED. Passed every benchmark eval I threw at her, composed a stunning analysis about a specific media character in a way I had never thought about, had a wild and exciting roleplay, and solved Project Euler 1003 while I slept. Felt like Claude 4.5 & Gemini 3.1 blended together, but with more intelligence. And all with raw CoT and cheaper than either!
Downsides: No native vision. Very disappointed by both DeepSeek and GLM in this regard. And… that’s all I can think of, for now at least.
Tesla0225 liked its theejs results compared to other open models. Anshu had it build a website.
Finding The Niche
Vlad’s point is inevitable if you think of the tasks as mostly staying similar over time. Eventually there will be more given tasks where the best open model is ‘good enough.’ That doesn’t hold true if the tasks and standards change.
An important caveat for all sides is you have to compare like to like.
Theo – t3.gg: I see a lot of people hyped about GLM-5.2. Rightfully so! Having an open weight model surpass GPT-5.4 and every Gemini model is dope.
That said – it’s not cheap. Both Opus 4.8 and GPT-5.5 set to “medium” are cheaper and smarter than GLM-5.2
It also uses way more output tokens. The tokens are cheaper, but the volume of them means you’ll spend much more time waiting for results.
Still dope! Just trying to make sure people set their expectations properly.
The correct take is clearly some form of ‘this model is dope, great job everyone, but not as dope as the hype might suggest.’
Leyten gets GLM-5.2 4-bit to 30.5 tok/s on six RTX Pro 6000s.
Negative Reactions
As always, some were not impressed.
QC: not impressed so far in conversation, flashes of something but it’s sloppy and willing to settle for college essay
testing GLM-5.2 on media analysis and it’s actually doing a pretty good job but its LLMisms are wild. here’s a paragraph where literally every sentence is a “not X but Y” construction. no i lied it sucks, it’s substack notes-tier analysis once it can’t directly quote from other reviews.
overall impression from one conversation with GLM-5.2 so far is “benchmaxxed.” i don’t think it has the sauce
@gwern: Trying it on a comic idea; its curated top-5 of 20 were mostly garbage, as usual for GLM outside coding tasks.
ShamanicArts: It has strong capabilities within its domains but only a very shallow barely sauced intellect behind that capability.
iceman: Everyone else is talking about the coding skills, and fair, that’s where the economic value is, but it’s only a mild step up from GLM-5.1 in terms of roleplay and creative writing. Better but not revolutionary. Still mildly prefer DSv4-Pro on those workloads.
Here’s an explicit claim of Extended Benchmaxxing, as in not literally benchmarks but tasks that resemble them more broadly:
typebulb: GLM 5.2 excels at “puzzlely” programming challenges, but struggles with real ones. It lacks common sense & fails to follow basic instructions. To use it successfully requires too much finnicky skilling & tooling. It costs me more than Opus 4.8 to code with, if you factor in time.
That’s based on a bunch of ad-hoc A/B tests comparing GLM 5.2 to Opus 4.8.
It’s also terribly sycophantic [as per ‘You’re Absolutely Right’].
Some other notes:
Andy Timm: Beyond “it’s a strong coding model”:
1. No native vision is a weird choice
2. It’s competencies are more uneven compared to Claudes/GPT. This matters even within code- e.g. “iterate with me on ideas for this feature” is a conversation implicitly; it’s weak(er) at conversations.
Looking To The Future
The founder of Z.ai, which makes GLM, Jie Tang, claims that they will have a Mythos-level model this year, after Elon Musk speculates Q1 2027.
I would bet against ‘Z.ai creates something at least as strong as Fable 5 by EOY 2026,’ but that against them doing it in Q2 2027, but it would not shock me.
Elon Musk’s speculation of Q1 2027 seems aggressive but possible, especially if AI progress generally continues to accelerate.
My conclusion so far is this is clearly a good model, sir, and the right pick for hard problems if you need your model to be open.
How much should we update based on this release? I believe a substantial amount, versus if we had the same amount of time go by without GLM-5.2. Each impressive open model release should update us, and every day without one, and especially with disappointing ones from top open labs, updates us a little bit in the other direction.
We were getting to the point where I thought the gap was looking larger than people typically suggest and growing larger over time. This undoes a good chunk of that, but no, it still is not especially close.
関連記事
2026 年にローカルで実行可能なトップ 7 つのコーディングモデル
KDnuggets が選定した、2026 年版のローカル環境で動作する主要な 7 つのコード生成 AI モデルを紹介している。
GPT-5 が免疫学者のデリア・ウンルタマズ氏に 3 年間の謎を解く手助けをした方法
OpenAI は、自社の最新モデル GPT-5 が免疫学者であるデリア・ウンルタマズ氏の 3 年間続いた研究課題の解決に貢献した事例を発表しました。
Talos:自動化された反復的ゲノム再解析による希少疾患診断の拡張
Microsoft Research は、希少疾患の診断を支援するオープンソースツール「Talos」を発表した。このツールは科学的知見の進化に応じて保存されたシーケンシングデータを自動的に再分析し、新たな治療可能証拠を持つ変異を検出する。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み