GLM-5.1がオープンソース化:8時間独立稼働可能なモデル
智譜が8時間連続で自律的に長距離タスクを処理できるオープンソースモデル「GLM-5.1」を公開し、SWE-bench Proなどで商用モデルを上回るコード生成・最適化能力を示した。
キーポイント
8時間自律動作と長距離タスク処理能力
モデルが人間の介入なしに8時間連続で作業を継続し、計画・実行・自己進化を経て完全な成果物を交付する「Long-Horizon Task」能力を実証。
コード生成・バグ修正ベンチマークでの首位達成
SWE-bench Pro、Terminal-Bench 2.0、NL2Repoなどの主要コードベンチでグローバルモデル第3位、オープンソースおよび国内モデル第1位の成績を記録。
具体シナリオ:Linux構築、DB最適化、ML負荷チューニング
8時間でのLinuxデスクトップ構築、655回イテレーションによるベクトルDBの6.9倍QPS向上、1000回以上のツール呼び出しによるMLモデル3.6倍加速を実演。
完全自律エージェントへの進化目標
7×24時間体制で目標分解・実行・自己評価・修正・進化を繰り返す全自治エージェント(Autonomous Agent)の実現を究極目標として掲げている。
GPUカーネルの完全自律最適化
Triton/CUDA Kernelの自動生成から高度なメモリ・グラフ最適化までを自律的に実行し、高性能計算領域におけるAIの端到端作業能力を実証。
効果的最適化期間の延伸と戦略転換
従来のモデルが早期に頭打ちになるのを克服し、ログ分析による戦略の動的切り替え(「打破-修復」サイクル)で最適化効果を1.4倍に延伸。
低フィードバック環境での自己評価能力
明確な数値指標がないタスクにおいて、機能完全性や一貫性を総合判断する初步的な自己評価メカニズムを実現し、自律エージェントの基盤能力を強化。
影響分析・編集コメントを表示
影響分析
本リリースは、LLMの評価基準を「短時間精度」から「長時間自律作業能力」へ転換させる契機となる。オープンソースコミュニティに強力なエージェント基盤を提供し、開発現場の自動化・自律化プロセスを加速させる可能性がある。ただしプレスリリース特有の数値は独立した検証が必要であり、実運用での安定性・コスト効率が今後の課題となる。
編集コメント
8時間連続自律作業という指標は、実務でのエージェント活用可能性を大きく広げる。ただしベンチマーク結果の再現性と推論コストの実証が、業界標準となるための鍵となる。
智譜 2026-04-08 10:41 北京
3分のVibe Coding(バイブコーディング:雰囲気や直感に任せたプログラミング)から30分のAgentic Engineering(エージェント工学:自律型AIによる工程構築)、そして今回の8時間にわたるLong-Horizon Task(長距離タスク:長期にわたる複雑な作業)へ。GLM-5.1は再び突破を遂げました。
GLM-5.1はこれまでで最も賢いフラッグシップモデルであり、現在世界最強のオープンソースモデルです。GLM-5.1はコード生成能力を大幅に向上させ、特に長期的なタスクの遂行において顕著な進歩が見られます。以前の数分間のインタラクションで完結するモデルとは異なり、GLM-5.1は単一のタスクにおいて8時間以上独立して継続的に作業を行うことができます。その間、自律的に計画を立て、実行し、自己進化を遂げ、最終的に完全なエンジニアリングレベルの成果物を納品します。
コード生成能力は、モデルの知能水準をさらに高める鍵です。以下の図は、業界内で最も代表的な3つのコード評価ベンチマークの平均結果を示しています。これには、専門的なソフトウェア開発作業を測定するSWE-Bench Pro、コマンドライン操作を通じて問題を解決するTerminal-Bench 2.0、ゼロから完全なコードリポジトリを構築するNL2Repoが含まれます。GLM-5.1は、グローバルモデルの中で3位、中国国内モデルで1位、オープンソースモデルで1位の成績を収めました。
実際のソフトウェア開発に最も近いSWE-bench Proベンチマークにおいて、GLM-5.1はグローバルベストを更新し、GPT-5.4やClaude Opus 4.6を上回りました。SWE-bench Proは、モデルが実際のGitHubリポジトリ内で難易度の高いエンジニアリングバグを特定し修正できるかを要求するもので、モデルが専門的なソフトウェア開発業務を担当できるかどうかを測る最も厳格な指標です。
あなたが眠る8時間は、モデルが働く8時間です。
過去2年間、業界はベンチマーク(Benchmark)を用いてモデルの知能度を測ってきました。私たちは、次の段階の衡量基準は「どれほど長く作業できるか」、つまりロングホリゾンタールーティン(Long-Horizon Task)におけるモデルの成果であり、人間の仕事のうちどれだけの時間を独立して完了できるかであると主張します。
長期的なタスクにおいて安定した出力を維持するため、モデルが直面するのは単により大きなコード量だけでなく、一連の複雑なエンジニアリング上の意思決定ポイントです:自らベンチマークを実行し、ボトルネックを特定し、解決策を変更し、再度テストを実行する。これはモデルにより高い要件を突きつけ、「実験→分析→最適化」という完全なクローズドループを人間のエンジニアのように形成することを求め、コード記述後に停止して採点を待つのではなく、自律的に行動させるものです。
METR(Model Evaluation and Research Team)の同等の評価基準において、GLM-5.1は8時間レベルの継続的な作業を達成した唯一のオープンソースモデルであり、Claude Opus 4.6を除く世界中でもこの能力を備える少数のモデルの一つです。私たちの究極的な目標は全自律型エージェント(Autonomous Agent)であり、モデルが7×24時間中断なく目標の分解、実行と納品、自己評価と修正、自己進化を行い、これからは人間の介入が不要になることです。
モデルの1日8時間の作業で何ができるかを見てみましょう。
シナリオ1:8時間でゼロからLinuxデスクトップを構築
昼間にアーキテクチャのスケッチを描き、就寝前にGLM-5.1に渡すと、朝起きた時には完全なシステムが完成しています。正確に8時間かかり、1200以上のステップを実行しました。20分で最初の意味のある成果が発生し、8時間後には機能豊富なLinuxデスクトップシステムが出力されました。これには完全なデスクトップ環境、ウィンドウマネージャー、ステータスバー、アプリケーション、VPNマネージャー、中国語フォントサポート、ゲームライブラリなどが含まれ、4.8MBの関連ファイルが付属しています。これは4人のチームが1週間で開発する作業量に相当します。
以下の動画は、GLM-5.1が8時間で行ったコードコミットの結果です。これらは数行から4、5行の小さなパッチではありません。各コミットは実質的なシステムレベルの進化であり、テストやコードレビューに人間が関与することなく完了しました。モデルはさらに自身のコードに対して回帰テスト(Regression Test)を記述し、それを実行してパスさせています。
シナリオ2:655回の反復でベクトルデータベースの最適化ボトルネックを打破
ベクトルデータベースはAI検索およびレコメンデーションシステムの背後にある中核エンジンであり、近似最近傍探索(Approximate Nearest Neighbor, ANN)はその中で非常に重要かつアルゴリズムとエンジニアリング能力を問われる重要な要素です。このプロセスでは、モデルがIVF(Inverted File Index)、HNSW(Hierarchical Navigable Small World)、ベクトル量子化などの基礎アルゴリズムの知識を習得しているだけでなく、実際のエンジニアリング判断力も必要とされます。つまり、一つの最適化パスで壁にぶつかった際に、ボトルネックを自ら特定し、戦略を切り替えることができ、盲目的に同じ方向を繰り返さないことです。
GLM-5.1は単にパラメータを微調整するだけでなく、全スキャンからIVFバケット検索への切り替え、半精度圧縮の導入、量子化による粗いランク付けの追加、二段階ルーティングの実行、そして事前プuning(Pruning)に至るまでの一連の最適化チェーンを自ら完了しました。655回の反復の中で、ベンチマーク(Benchmark)の自主実行、ボトルネックの特定、方案の調整を継続的に行い、最終的にベクトルデータベースのクエリスループットを初回納品時の3108 QPSから21472 QPSまで引き上げ、初期正式版の6.9倍に向上させました。
シナリオ3:1000回のツール呼び出しで実際の機械学習モデルの負荷を最適化
GLM-5.1が示す長時間の作業能力と自己進化能力により、同モデルは単なる「コード生成器」から「能動的なシステム最適化エンジン」へと進化しました。50の実際の機械学習計算負荷を含むKernelBench Level 3最適化ベンチマークにおいて、GLM-5.1は各負荷に対して独立した継続的最適化を行いました。24時間以上の絶え間ない反復プロセスの中で、GLM-5.1は複数の「コンパイル—テスト—分析—再実装」サイクルを自律的に完了し、最終的に3.6倍の幾何平均加速比を達成しました。これはtorch.compileのmax-autotuneモードが示す1.49倍という結果を大幅に上回るものです。
モデルが示した最適化の深さと創造性は特に注目すべき点です。GLM-5.1はカスタムTriton KernelおよびCUDA Kernelを自律的に記述し、cuBLASLtのepilogue融合を活用してshared memory tiling(共有メモリタイル処理)とCUDA Graph最適化を適用しました。これらの最適化戦略は、高レベルの演算子融合からマイクロアーキテクチャレベルのパラメータ調整に至るまで、完全な技術スタックをカバーしており、そのすべてがモデルの自律的な意思決定に基づいています。
この結果は、従来専門家の経験に大きく依存してきたGPUカーネル最適化の分野において、AIモデルが問題分析から設計案の策定、さらには反復的なパラメータ調整に至るまでのエンドツーエンドの自律作業能力を既に備えていることを示しています。GPUおよびより広範な高性能計算(HPC)の分野において、長年エンジニアリング効率を阻害してきた最適化のボトルネックは、AIによって徐々に解消されつつあります。
8時間の背後にあるもの
モデルを8時間稼働させること自体は難しくはありません。真に困難なのは、第8時間の作業が依然として有効であることです。
GLM-5以前のモデルを含む多くのモデルは、複雑な最適化タスクに直面すると、初期段階で急速に成果を上げた後にボトルネック状態に陥りがちでした。これらは既知の最適化手法を繰り返し試みますが、一つの手段が通じない場合に戦略を能動的に切り替えることができませんでした。
GLM-5.1の訓練目標は、このボトルネックを突破することです。ベクトルデータベースの最適化タスクにおいて、私たちは典型的な「階段状」の最適化軌跡を観察しました。モデルは固定された戦略内で増分的なパラメータ調整を行い、収益が頭打ちになった時点で能動的にベンチマークログを分析して現在のボトルネックを特定し、その後構造的に異なるアプローチへとジャンプします。具体的には、全データベーススキャンからIVF(Inverted File Index)バケット化へ、単一精度から量子化による粗い検索へ、単層ルーティングから二段階のプルーニング(枝刈り)へと移行します。各ジャンプにはRecall(再現率)の一時的な低下が伴いますが、これはモデルが新しい方向性を探索する際に制約を一時的に打破するためであり、その後で調整し直します。この「打破—修復」のサイクル自体が、有効な最適化の証左です。
KernelBenchにおいて、複数のモデルの最適化曲線を比較することで、この差異をより直接的に確認できました。GLM-5は初期の立ち上がりが速いものの、早期に平坦化します。一方、GLM-5.1は同じ時間枠内でより長く上昇を続け、最終的にGLM-5の1.4倍に達しました。鍵は、モデルが「有効な最適化」の期間をどこまで延長できるかです。
Linuxデスクトップのビルドタスクにおける課題はまた異なります。前述の2つのシナリオには、各ステップの有効性を測定するための明確な数値指標(QPSや加速比)が存在しましたが、完全なデスクトップシステムをビルドする場合、単一の指標はありません。「良い」という基準は、機能の完全性、視覚的一貫性、インタラクション品質を総合的に判断することに依存します。これはモデルに初步的な自己評価能力を求めるものであり、各実行サイクルの終了後に自身の成果を振り返り、改善すべき箇所や継続して最適化するべき領域を判断する能力が必要です。これは3つのシナリオの中でフィードバック信号が最も弱いケースであり、かつ現在最も突破が必要な方向性です。
私たちは、モデルの「有効作業時間」を延長することが、エージェント能力を向上させるための基本的な次元であると信じています。この道筋には依然として顕著な技術的課題があります:複雑なタスクに対するコンテキスト不安(context anxiety)をいかに克服するか、数千回のツール呼び出し後に実行の一貫性をいかに維持するか、いかにして局所最適解から早期に脱出するか、そして何より重要なのは、数値指標が明確でないタスクにおいて信頼できる自己評価メカニズムをいかに構築するかという点です。GLM-5.1は、この方向への一歩であり、私たちは継続的に推進していきます。
GLM-5.1は単により強力なモデルというだけでなく、新たな技術パラダイムの幕開けを意味します。今すぐ、指示を与えて8時間離れてみてください。
オープンソースと利用方法
- 公式APIアクセス
BigModelプラットフォーム:https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
Z.ai:https://docs.z.ai/guides/llm/glm-5.1
- 製品体験
GLM-5.1はまもなくZ.aiに登場します:https://chat.z.ai
GLM-5.1はGLM Coding Plan(Max/Pro/Lite)に組み込まれており、Claude CodeやOpenCodeなどの主要な開発ツールをサポートしています。
- オープンソースリンク
GitHub:https://github.com/zai-org/GLM-5
Hugging Face:https://huggingface.co/zai-org/GLM-5.1
ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1
WeChatで開くためにジャンプ
原文を表示
智谱 2026-04-08 10:41 北京
image
image
从3分钟的Vibe Coding(氛围编程)到30分钟的Agentic Engineering(智能体工程),再到本次我们带来的8小时Long-Horizon Task(长程任务),GLM-5.1再次取得突破。
GLM-5.1是我们迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。
代码能力是模型智能水平进一步提升的关键。下图是业内最具代表性的三个代码评测基准的平均结果,包括衡量模型专业软件开发工作的SWE-Bench Pro、操作命令行解决问题的Terminal-Bench 2.0、从零构建完整代码仓库的NL2Repo,GLM-5.1取得全球模型第三、国产模型第一、开源模型第一。
在最接近真实软件开发的SWE-bench Pro基准测试中,GLM-5.1刷新全球最佳成绩,超过GPT-5.4、Claude Opus 4.6。SWE-Bench Pro要求模型在真实GitHub仓库中定位并修复高难度工程Bug,是衡量模型能否胜任专业软件开发的最硬指标。
你睡觉的8小时,是模型上班的8小时
过去两年,行业用Benchmark衡量模型有多智能。我们认为,下一阶段的衡量标准应该是“能工作多久”,即模型在Long-Horizon Task中的表现,能独立完成多长时间的人类任务。
在长程任务中保持稳定输出,模型面对的不只是更大代码量,而是一连串复杂的工程决策点:主动跑benchmark、定位瓶颈、修改方案、再跑测试。这对模型提出更高的要求,需要像人类工程师一样,形成“实验→分析→优化”的完整闭环,而不是写完代码停下来等人打分。
在METR榜单的同等评估标准下,GLM-5.1是唯一达到8小时级持续工作的开源模型,也是全球范围内除Claude Opus 4.6外少数具备这一能力的模型。我们的终极目标是全自治智能体(Autonomous Agent),模型7×24小时不间断地分解目标、执行交付、自我评价与纠正、自我进化,从此无需人类介入。
看看模型的一天8小时工作,都能做些什么。
场景一:8小时从零构建Linux桌面
白天画好架构草图,睡前交给GLM-5.1,早上醒来已产出完整系统。历时8小时整,执行1200多步,20分钟时产生第一个有意义的成果,8小时产出了一套功能完善的Linux桌面系统,包括:完整的桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持、游戏库等,4.8MB的配套文件,这相当于一个4人团队一周的开发工作量。
以下视频是GLM-5.1在8小时内的代码提交结果:这些不是四五行的小patch,每一次提交都是具有实质意义的系统级演进,而且全程没有人参与测试、审查代码。模型甚至给自己的代码写了一些回归测试,而且跑过了。
场景二:655次迭代打破向量数据库优化瓶颈
向量数据库是AI搜索和推荐系统背后的核心引擎,而近似最近邻检索则是其中非常关键、也非常考验算法与工程能力的一环。这个过程既要求模型掌握IVF、HNSW、向量量化等底层算法知识,也要求它具备真实的工程判断力,能够在一条优化路径碰壁时主动识别瓶颈、切换策略,而不是盲目重复同一个方向。
GLM-5.1不是只会微调参数,而是一路自己完成了从全库扫描切到IVF分桶召回、引入半精度压缩、加入量化粗排、做两级路由,再到提前剪枝的整套优化链条。在655轮迭代里,它持续自主跑Benchmark、定位瓶颈、调整方案,最终把向量数据库的查询吞吐从初次交付的3108 QPS一路推到21472 QPS,提升到初始正式版本的6.9倍。
场景三:1000轮工具调用优化真实机器学习模型负载
GLM-5.1展现的长时间工作和自进化能力,让其从单纯的“代码生成器”进化为“主动的系统优化器”。我们在涵盖50个真实机器学习计算负载的KernelBench Level 3优化基准上,让GLM-5.1对每个负载独立进行持续优化。在超过24小时的不间断迭代中,GLM-5.1自主完成了多轮编译—测试—分析—重写循环,最终取得3.6倍的几何平均加速比,显著高于torch.compile max-autotune模式的1.49倍。
模型展现出的优化深度与创造力尤其值得关注。GLM-5.1能够自主编写定制Triton Kernel和CUDA Kernel,运用cuBLASLt epilogue融合并实施shared memory tiling与CUDA Graph优化。这些优化策略覆盖了从高层算子融合到微架构级调优的完整技术栈,每一步都是模型的自主决策。
这一结果表明,在GPU内核优化这一传统上高度依赖专家经验的领域,AI模型已经展现出从问题分析、方案设计到迭代调优的端到端自主工作能力。在GPU以及更广泛的高性能计算领域,长期制约工程效率的优化瓶颈正在被AI逐步打破。
Behind the 8h
让模型跑8小时并不难,真正难的是让第8小时的工作仍然有效。
此前包括GLM-5在内的模型,在面对复杂优化任务时,往往在早期快速取得收益后就进入瓶颈期。它们会反复尝试已知的优化手段,但无法在一条路走不通时主动切换策略。
GLM-5.1的训练目标是突破这个瓶颈。在向量数据库优化任务中,我们观察到一个典型的"阶梯型"优化轨迹:模型在一个固定策略内进行增量调优,当收益趋于停滞时,主动分析Benchmark日志、定位当前瓶颈,然后跳转到结构性不同的方案——从全库扫描到IVF分桶,从单精度到量化粗排,从单层路由到两级剪枝。每一次跳跃都伴随着短暂的Recall下降,因为模型在探索新方向时会暂时打破约束,随后再调回来。这个"打破-修复"的循环本身就是有效优化的标志。
在KernelBench上,我们通过对比多个模型的优化曲线,更直接地看到了这个差异。GLM-5在前期上升较快,但很早就趋于平坦;GLM-5.1在同样的时间窗口内持续上升得更久,最终达到了GLM-5的1.4倍。关键在于模型能把"有效优化"的窗口延伸多远。
在Linux桌面构建任务中,挑战又不一样了。前两个场景都有明确的数值指标(QPS、加速比)可以用来衡量每一步是否有效,但构建一个完整的桌面系统没有单一指标,什么算"好"取决于功能完整度、视觉一致性、交互质量的综合判断。这要求模型具备初步的自我评估能力:在每一轮执行后审视自己的产出,判断哪里需要改进、继续优化。这是三个场景中反馈信号最弱的一个,也是当前最需要突破的方向。
我们认为,延长模型的"有效工作时长"是提升智能体能力的一个基础维度。在这条路上仍然有显著的技术挑战:如何克服模型面对复杂任务的上下文焦虑、如何在数千次工具调用后保持执行的一致性、如何更早地跳出局部最优,以及更重要的是如何在没有确定数值指标的任务上建立可靠的自我评估机制。GLM-5.1是我们在这个方向上迈出的一步,我们会持续推进。
GLM-5.1不只是一个更强的模型,而是一种新的技术范式的开启。此刻,尝试给它一个指令,然后离开8小时。
开源与使用方式
1.官方API接入
BigModel开放平台:https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
Z.ai:https://docs.z.ai/guides/llm/glm-5.1
2.产品体验
GLM-5.1即将登陆Z.ai:https://chat.z.ai
GLM-5.1已纳入GLM Coding Plan(Max/Pro/Lite),支持Claude Code、OpenCode等主流开发工具。
3.开源链接
GitHub:https://github.com/zai-org/GLM-5
Hugging Face:https://huggingface.co/zai-org/GLM-5.1
ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1
跳转微信打开
関連記事
[AINews] 今日は何も大きな出来事はありませんでした
Anthropic が RSI の兆候を示し、OpenAI の ChatGPT が月間アクティブユーザー数で 10 億人を突破。SpaceX AI は IPO について説明しているが、最も重要なのは AIE WF のチケット確保とイベント参加である。
Vite 開発元 VoidZero が Cloudflare に参画
Vite や Vitest を開発する企業「VoidZero」がクラウドプロバイダー「Cloudflare」に合流し、同社全従業員も Cloudflare の一員となる。ただし、主要プロジェクトは引き続きオープンソースとして運営される方針を示した。
Google の新モデル「Gemma 4 12B」は 16GB RAM のノート PC で動作可能に設計
Google は、メモリ消費を抑えた新しい生成 AI モデル「Gemma 4 12B」を発表した。このモデルは、一般的な消費者向けノートパソコン(RAM 16GB)でも実行できるように最適化されており、ローカルでの AI 利用を促進するものである。