GLM 5.1 が戦略的思考を強化、データセンターでの反発激化、有益な LLM の逆転現象、ヒューマノイドロボットが実働へ
The Batch はコーディングエージェントの活用度合いが分野によって大きく異なることを示し、フロントエンドからインフラまで実装速度と信頼性の格差を詳細に分析している。
キーポイント
分野別の加速度における明確な格差
コーディングエージェントはフロントエンド開発で最も効果的だが、バックエンド、インフラ、研究の順にその影響力が低下する傾向にある。
フロントエンドとバックエンドの実装特性の違い
フロントエンドは言語やフレームワークへの習熟度が高く視覚デザイン以外の実装が迅速だが、バックエンドではバグの深刻さやデータ整合性のリスクから人間の監督が不可欠である。
インフラ管理におけるエージェントの限界
スケーリングや信頼性維持といった複雑なトレードオフを要するインフラ領域では、LLM の知識不足と深い専門知識の必要性により、エージェントの貢献度は最も低い。
コーディングエージェントの分野別効果差
フロントエンド開発は最も加速される一方、インフラや研究領域では複雑な判断が必要なため、人間のスキルが依然として不可欠である。
GLM-5.1 の長時間自律タスク能力
Z.ai が公開した GLM-5.1 は、8 時間にわたる自律的な実行と戦略の修正が可能で、SWE-Bench Pro でトップスコアを記録した。
ヒューマノイドロボットの産業実装
Agility Robotics の Digit ロボットが Schaeffler 工場で実用化され、人件費と同等のコストで作業を行い、労働者の役割を高度化する事例が出始めた。
影響分析・編集コメントを表示
影響分析
この記事は、AI によるソフトウェア開発の現状を過大評価せず、分野ごとに異なる実効性を冷静に分析することで、エンジニアリングチームにおける AI ツールの適切な導入戦略やリソース配分に対する重要な指針を示しています。特にインフラ領域での限界を指摘している点は、現場の信頼性確保において極めて現実的な警告となっています。
編集コメント
AI ツールの導入において「万能」という幻想を捨て、分野ごとの特性に応じた現実的な期待値を持つことの重要性を説く非常に示唆に富む分析です。
親愛なる皆様、
コーディングエージェントは、ソフトウェア作業の異なる種類を異なる程度で加速しています。チームを構築する際、これらの違いを理解することは、現実的な期待を持つために役立ちます。最も加速された機能から最も遅い順に並べると、私の順序は次の通りです:フロントエンド開発、バックエンド、インフラストラクチャ、そして研究。
フロントエンド開発 — 例えば、EC サイトの商品説明ページを構築するといった作業 — は、コーディングエージェントが TypeScript や JavaScript などの人気のあるフロントエンド言語や、React や Angular などのフレームワークに精通しているため、劇的に加速されています。さらに、ウェブブラウザを操作して自身が構築したものを検証することで、コーディングエージェントは現在、ループを閉じ、自身の実装に対して反復処理を行うのが非常に上手になっています。もちろん、現在の LLM(大規模言語モデル)はまだ視覚的なデザインにおいては弱みがありますが、デザインが与えられている場合や、洗練されたデザインが重要でない場合は、実装は迅速に行えます!
バックエンド開発、例えば製品データを要求するクエリに応答するための API を構築することは、より困難です。現代のモデルが微妙なバグやセキュリティ上の欠陥につながる可能性のある隅々まで考えさせるように導くには、人間の開発者によるさらなる作業が必要です。さらに、バックエンドのバグは、データベースが破損して時折誤った結果を返すなど、直感的でない下流への影響を引き起こす可能性があり、これは典型的なフロントエンドのバグよりもデバッグが難しい場合があります。最後に、コーディングエージェントを使用するとデータベースマイグレーションが容易になる場合もありますが、それでも困難であり、データ損失を防ぐために慎重に処理する必要があります。バックエンド開発はコーディングエージェントによって大幅に高速化されますが、その加速度は限定的であり、熟練した開発者はコーディングエージェントを使用する経験の浅い開発者よりもはるかに優れたバックエンドを設計・実装します。
インフラストラクチャ。エージェントは、EC サイトを 10,000 人のアクティブユーザーにスケールさせつつ 99.99% の信頼性を維持するようなタスクにおいて、さらに効果が発揮されません。LLM(大規模言語モデル)の知識は、インフラストラクチャや優れたエンジニアが迫られる複雑なトレードオフに関する点では依然として限定的であり、そのため私は重要なインフラ関連の決定に対してあまり信頼していません。良質なインフラを構築するには通常、テストと実験の期間が必要となり、コーディングエージェントはその支援に役立ちますが、最終的には高速な AI によるコーディングがあまり役立たない重大なボトルネックとなります。最後に、インフラストラクチャ上のバグ(例えば、微妙なネットワーク設定ミスなど)を見つけることは極めて困難であり、深いエンジニアリングの専門知識を要します。したがって、私はコーディングエージェントが重要なインフラストラクチャの開発を加速させる効果は、バックエンド開発よりもさらに低いと見なしています。
image研究。コーディングエージェントが研究業務を加速させる効果は、インフラストラクチャよりもさらに低いです。研究には、新しいアイデアを検討し、仮説を立て、実験を実行し、その結果を解釈して仮説を修正する可能性を探り、結論に至るまで反復を行うことが含まれます。コーディングエージェントは、研究コードを書く速度を高めることができます。(私はまた、実験の調整と追跡を支援するためにコーディングエージェントを使用しており、これにより単一の研究者がより多くの実験を管理しやすくなります。)しかし、研究にはコーディング以外の作業も多数あり、現在のところのエージェントが研究に寄与できるのは限定的です。
ソフトウェアの作業をフロントエンド、バックエンド、インフラ、研究というカテゴリに分類するのは極端な単純化ですが、異なるタスクがどれほど高速化したかについてのシンプルなメンタルモデルは、ソフトウェアチームを組織化する上で有用でした。例えば、私は現在、フロントエンドチームには1年前よりも劇的に速く製品を実装するよう求めていますが、研究チームに対する私の期待はそれほど大きく変化していません。
コーディングエージェントを活用してスピードを実現するためのソフトウェアチームの組織化方法に私は魅了されており、今後の手紙で発見したことを引き続き共有していく予定です。
作り続けましょう!
アンドリュー
DEEPLEARNING.AI からのメッセージ
「マルチモーダルデータパイプラインの構築」では、画像、音声、動画をエンドツーエンドで処理するパイプラインを構築する方法を学びます。構造化されていないデータをクエリ可能な形式に変換します。無料で登録する
ニュース

GLM 5.1 は長時間実行タスクを目標に
Z.ai は、単一のタスクに対して最大8時間自律的に動作できるように、自社のフラッグシップオープンウェイト大規模言語モデルを更新しました。
何が新しいか: GLM-5.1 はコーディングおよびエージェントタスク向けに設計されています。Z.ai によると、このモデルはアプローチを試行し、その結果を評価して、結果が不十分な場合は戦略を見直すことができます。これは早期に諦めるのではなく、数百回ループを繰り返すことを可能にします。
- 入力/出力:テキスト入力(最大 200,000 トークン)、テキスト出力(最大 128,000 トークン)
- アーキテクチャ:Mixture-of-experts(専門家混合型)トランスフォーマー、全パラメータ数 7540 億、トークンあたりアクティブなパラメータ数 400 億
- 機能:推論、関数呼び出し、構造化出力
- パフォーマンス:Artificial Analysis Intelligence Index で最高スコアを記録したオープンウェイトモデル、Arena Code リーダーボードで 3 位、SWE-Bench Pro(Z.ai のテスト)では首位を維持
- 利用可能状況/価格:MIT ライセンスの下、商用・非商用ともに HuggingFace からウェイトが入手可能。API は入力トークン 100 万あたり 1.40 ドル、キャッシュ済みトークン 100 万あたり 0.26 ドル、出力トークン 100 万あたり 4.40 ドル。コーディングプランは四半期あたり 48.60 ドルから 432 ドル
- 非公開:具体的なアーキテクチャ、トレーニングデータおよび手法の詳細
仕組みについて: Z.ai は GLM-5.1 に特化した技術報告書を公表していませんが、同モデルは GLM-5 の基本アーキテクチャ、アテンション機構、事前学習、および入力/出力サイズ制限を踏襲していると考えられます。最大の改善点は、長時間実行されるタスクにおける持続的な生産性です。
- GLM-5 や多くの他のモデルがあるトークン予算内で最終出力を生成するか、さらなる推論が結果を変えないと判断するまでであるのに対し、GLM-5.1 は計画、実行、中間結果の評価、そしてアプローチの評価というサイクルを繰り返し、タスクが完了したと判断するまで続けます。現在の手法に問題があると見なせば戦略を変更し、Z.ai のテストでは数千回ものツール呼び出しを数時間にわたって行うこともあります。
- 同社は GLM-5.1 をエージェント型コーディング向けに最適化したが、具体的な方法は明言していません。
性能: GLM-5.1 はオープンウェイトモデルの中で強力なコーディング結果を達成しましたが、推論と数学のテストではクローズドモデルには及びませんでした。
- Artificial Analysis のインテリジェンス指数(経済的に有用なタスクの 10 種類のテストを複合化したもの)において、推論モードに設定された GLM-5.1 は 51 を記録し、オープンウェイトモデルの中で最高スコアとなりましたが、プロプライエタリモデルには及びませんでした。具体的には、推論モードに設定された Gemini 3.1 Pro Preview と xhigh 推論モードに設定された GPT-5.4 がともに 57 で同率首位、また最大推論モードに設定された Claude Opus 4.6 は 53 を記録しています。
- Arena のコードリーダーボード(盲検の直接対決比較に基づいてモデルをランク付けするもの)では、GLM-5.1 はリリースから数日以内に Elo 値 1,530 に到達し、Claude Opus 4.6(Elo 1,542)および推論モードに設定された Claude Opus 4.6(Elo 1,548)に次いで第 3 位となりました。
- Z.ai の独自テストでは、GLM-5.1 は GitHub から抽出された実世界のソフトウェアエンジニアリング問題を扱う SWE-Bench Pro で首位を記録し、58.4 パーセントの達成率を示しました。これに対し、GPT-5.4 は 57.7 パーセント、Claude Opus 4.6 は 57.3 パーセント、Gemini 3.1 Pro は 54.2 パーセントでした。
- セキュリティ推論をテストする CyberGym では、GLM-5.1(68.7)が Z.ai がテストしたモデルの中で最高スコアを記録しました。これは Claude Mythos の登場前(Anthropic によると 83.1)の状況であり、Claude Opus 4.6(66.6)や GPT-5.4(66.3)を上回っています。Gemini 3.1 Pro と GPT-5.4 は安全性の理由から特定のタスクの実行を拒否したため、その結果がスコアに悪影響を与えたと考えられます。
- グラフィックスプロセッサ上で動作する機械学習コードの加速能力を測定する KernelBench Level 3 では、Z.ai が測定したところ、GLM-5.1 は 3.6 倍の加速率を示しましたが、Claude Opus 4.6 の 4.2 倍には及びませんでした。
- 推論と数学に関するテストでは、GLM-5.1 はプロプライエタリモデルに大きな差をつけられました。例えば、大学院レベルの科学問題を提示する GPQA Diamond では、GLM-5.1(正答率 86.2 パーセント)は Gemini 3.1 Pro(正答率 94.3 パーセント)を下回りました。また、AIME 2026 のような競技数学の問題では、GLM-5.1(95.3 パーセント)が GPT-5.4(98.7 パーセント)に劣勢となりました。
価格引き上げ: Z.ai は GLM-5.1 を前作よりも大幅に高い価格で設定しました。API トークンの料金は約 40% 高く、コーディングプランのサブスクリプションは約 2 倍となっています。ただし、その API 価格は依然として同等のプロプライエタリモデルより安価です(入力トークン 100 万あたり 1.40 ドルに対し、Claude Opus 4.6 は 5 ドル)。しかし、この差は縮まりつつあります。
なぜ重要なのか: 数分ではなく数時間にわたって自律的に作業を行う能力は、大規模言語モデル(LLM)の競争において拡大している領域です。AI エージェントが自律的に完了したタスクの長さは、独立したテスト機関である METR によると約 7 ヶ月ごとに倍増しており、Anysphere の Cursor 統合開発環境 ran は、Swarm AI エージェント(群知能 AI エージェント)の群れを 1 週間稼働させました。しかし、SWE-EVO SWE-EVO のように持続的なパフォーマンスをテストするために設計されたベンチマークでは、トップモデルでも長期間実行されるコーディングタスクの約 25% しか成功していないことが示されています。
私たちが考えていること: GLM-5.1 が長時間のセッションにおいて行き詰まりを検知し、そこから方向転換する能力が、独立したテストの下で維持されることが確認できれば、それは現在のベンチマークでは捉えきれていないトレーニング目標を示唆することになります。すなわち、「失敗しているアプローチをいつ放棄すべきか」を見極める能力です。

ヒューマノイド・ロボットが工場床で作業
ヒューマノイド・ロボットの少数が産業現場に導入され、そこでは人件費とほぼ同等のコストで稼働し、一部の労働者をより高レベルの役割へと押し上げています。
最新動向: オレゴン州を拠点とするアジリティ・ロボティクス(Agility Robotics)は、ドイツの自動車部品メーカーであるシャフラー(Schaeffler)にヒューマノイド・ロボットを供給しており、これはヒューマノイド・ロボットの最初の運用展開です。*The Wall Street Journal* が報じています。アジリティ社の「Digit(ディジット)」ロボットは、シャフラー社のサウスカロライナ工場において、新しく製造された部品で満たされたコンテナを運搬する仕事を担っています。この仕事は以前、人間労働者が行っており、その労働者は監督職へと昇進しました。両社とも現在稼働中の「Digit」の台数は非公表ですが、シャフラー社は2030年までに米国および欧州の工場に数百台を展開する計画であることを明らかにしています。
仕組み: シェフラー工場で、Digit は、25ポンドのバスケットをスタンププレスからコンベアベルトへ運搬しています。この移動には約 1 分かかります。このロボットは近傍に人間がいることを検知する機能は備えておらず(これはアジリティ社が来年実装予定の機能です)、そのためアクリル板で囲まれたバリアの背後で稼働しています。2 回の 4 時間シフトで働き、その間は充電のために休憩します。同社は、処理ハードウェアや AI モデル、データセット、トレーニング手法など、自社の技術に関する詳細をほとんど明らかにしていません。
- Digit は人間サイズの設計(身長 5 フィート 9 インチ、体重 143 ポンド)であり、持ち上げ作業に適した逆関節の脚、荷物を持ち上げてバランスを保つための腕、4 本の指を持つグリッパー、処理装置・バッテリー・センサーを内蔵する胴体、そして現在の焦点に向ける LED の「目」を備えています。これは 2016 年頃にオレゴン州立大学と共同開発された、胴体や頭部、知覚システムを持たない二足歩行ロボット研究プラットフォームである Cassie を基盤としています。
- ロボットのセンサーには RGB デプスカメラ、LiDAR(ライダー)、モーションセンシング慣性計測装置(IMU: Inertial Measurement Unit)、および関節の位置と速度を測定する未詳エンコーダーが含まれる可能性があります。
- 歩行制御は動的であり、不整地での管理、外乱からの回復、階段や傾斜の登攀を可能にします。
- アジャイリティ社のエンジニアたちは、展開前に作業環境のマッピングを行い、現場で特定のタスクを設定します。タスクは関節モーターへの命令ではなく構造化されたワークフローとして記述され、ピックアップ場所、ドロップオフ場所、オブジェクトの種類などの変数を指定します。
- アジャイリティ社は Digit の価格については開示していませんが、各ロボットのコストは 1 時間あたり 10 ドルから 25 ドルであり、一方、シャフラー工場の初級職の賃金は 1 時間あたり 20 ドルであると述べています。
ニュースの背景: 現在、ヒューマノイドロボットの現実世界における産業利用は、倉庫や工場での限られた初期かつ狭義な展開に限定されており、そこでは特定の明確に定義されたタスクを支援しています。業界内の他のほとんどのヒューマノイドシステムはまだパイロットまたは試験段階にあります。マッキンゼーのコンサルタントが『ウォール・ストリート・ジャーナル』に対して語ったところによると、現在約 200 台のヒューマノイドロボットが工場で稼働しており、製造業の労働力に大幅な削減を伴うことなく、この数は 2040 年までに 500 万台に成長すると予想されています。一般的に 研究 は、ロボットが特定のタスクにおいて人間を代替し、職の再編成と残りの役割のアップグレードを促進すると示唆しています。ヒューマノイドロボットが雇用に与える影響を評価するにはまだ早すぎます。
なぜ重要なのか: 人間型ロボットは、バッテリー、モーター、AI の技術向上により、ここ数年になってようやく広く 利用可能 になりました。一般的な産業用ロボットとは異なり、人間と同じ形状とサイズを持つ機械は、同様に人間のために設計された環境において、人間の活動に直接組み込むことができます。AI に駆動されるビジョン(視覚認識)、モータースキル(運動制御)、およびナビゲーション機能により、これらは自由に移動し、少なくともある程度自律的に動作することが可能になります。Schaeffler がサウスカロライナ州で Digits を使用していること — これは Amazon や GXO Logistics での Agility ロボットのテスト、BMW の Figure 製人間型ロボットの 試行 といったパイロットプログラムを超えた一歩です — は、これらが経済的に有用な作業を遂行する能力を持っていることを示しており、現在人間が行っている労働を引き受ける可能性も十分にあります。
私たちが考えていること: ロボティクス 研究 が示唆するところによれば、人間型ロボットをより自律的、対話的、そして全般的に能力の高いものにするためには、まだ大きな余地が残されています。

データセンターへの反乱が勢いを増す
米国各地で、新たなデータセンターに対する抵抗が高まっています。
何が新しいか: データセンターの反対派は、立法手続きを通じて異議を表明しており、最近では 2 件の事例において暴力行為に及んでいます。これらの施設に対する懸念には、電気料金への影響、電力および水の消費量、騒音公害、住宅街との近接性、そして広大な敷地規模などが含まれています。2024 年 5 月から 2025 年 3 月までの間に、地域社会の反対により約 640 億ドル相当のデータセンタープロジェクトが阻止または遅延したと、ある研究グループは推計しています 詳細。
仕組み: この抵抗の一部は、民主的な手続きを通じて表現されています。
- メイン州の州議会は、2027年まで電力を20メガワット以上必要とする新規データセンターに対する暫定措置(モラトリアム)を含む法案を可決しました。この措置は知事の署名待ちの状態です。また、データセンターが電力網および電気料金に与える影響を調査するための評議会も設置されます。これが施行されれば、全州規模での初の禁止となり、他の州でも追随する可能性があります。少なくとも12の他州で、2026年にデータセンターのモラトリアム法案が提出されています。
- ウィスコンシン州ポートワシントン市は最近、大規模プロジェクト(データセンターを含む)に対して税制優遇措置を付与する前に住民投票による承認が必要とする住民投票案を可決しました。支持者らはこれを同様の事例としては初めると述べており、オラクルとOpenAIのために建設中の1.3ギガワットのデータセンターが2028年に稼働を開始する見込みの中での出来事でした。市指導部はプロジェクト誘致のために税制優遇措置を提示していました。この住民投票案は2対1の賛成多数で可決されましたが、ビジネス団体が裁判所にて異議を唱えたため、現在も法的審査が行われているとPoliticoが報じています。
- ミズーリ州フェストゥスでは、市内で60億ドル規模のデータセンター建設を承認する投票を行った市議会議員全員が、住民によって罷免されました。
- オハイオ州では市民発案による ballot measure(投票措置)が提案されており、25メガワットを超える電力を必要とする将来のデータセンターを禁止するために州憲法を改正するものです。この措置は7月1日までに40万筆以上の署名を集め、11月の住民投票で過半数の支持を得る必要があります。
- ネバダ州ボーラーシティでは、住民が公聴会に参加し、データセンター反対の抗議活動を行うなどして反対の意思を表明したため、88.5エーカー規模のデータセンターに関する予定されていた審議会の開催が延期されました。
- メリーランド州でも反対の声が上がっており、2つの郡の住民らが提案されたデータセンター開発に反対する集会を行いました。暴力的な対応: データセンターへの反感は、少なくとも2件の事件において暴力行為と関連付けられています。
- サンフランシスコでは、最近ある男性が OpenAI の CEO サム・アルトマンの自宅にモロトフカクテルを投げつけました。それから 1 時間もしないうちに、その男性は OpenAI の本社を訪れ、建物を焼き払うと脅迫したと NPR が報じています。この男性は AI が人類にもたらすリスクについて記述していたことが、連邦の宣誓供述書に記載されています。
- インディアナポリスの市議会の議員であるギブソンの自宅には 13 発の銃弾が撃ち込まれました。同議員はこの都市に 5 億ドル規模のデータセンター建設を支持していました。その家のドアマットの下には「データセンターは不要」と書かれたメモが挟まれていました。
ニュースの背景: 一部のプロジェクトに関する透明性の欠如が、反対派の主要な不満点です。例えばミズーリ州の開発では、データセンターの運営者が公に特定されていません。批判者たちはまた、これらの施設の環境への影響、特に騒音レベル、広大な敷地面積、エネルギー需要、そして水消費量にも言及しています。しかし、新しいデータセンターにはより環境に優しい設計が採用されており、例えばサーバーを冷却するためのより効率的な閉ループシステムなどが挙げられます。さらに、データセンターの数は増え続けており、その多くが 民間所有の独立型発電所 を通じて自給電力を供給しています。
なぜ重要なのか: AI の急速な成長はデータセンターへの需要を急増させましたが、電力が一部の地域では重要な制約要因として浮上しています。テック企業はこのボトルネックに対処するため、新たな発電容量の建設競争を繰り広げていますが、これらのプロジェクトの規模は地域コミュニティに緊張をもたらしています。コミュニティ側は、データセンターによる雇用創出や税収増といった経済的恩恵と、電力網への負荷増大、騒音汚染、近隣環境の悪化といったトレードオフのバランスを取らなければなりません。より広範な視点では、テック業界のリーダーたちは、データセンターの開発を中国との人工知能競争における重要な要素と捉えています。
私たちが考えていること: データセンター運営業者の中には、他よりも責任ある行動をとる者もいます。大手 AI 企業は資源消費について透明性を保っています。彼らの電力や水の使用量は、一般の認識よりもはるかに少なく、最新のデータセンターは従来型に比べて環境に優しいものとなっています。

一貫して支援するアシスタント
通常、大規模言語モデルは、有益で無害かつ誠実なアシスタントとして振る舞うように訓練されています。しかし、長時間にわたる会話や感情的な対話においては、あまり有益ではない特性が現れることがあります。研究者たちは、LLM のアシスタント・ペルソナを安定させる方法を考案しました。
何が新しいか: オックスフォード大学のクリスティーナ・ルー氏と、研究者をメンターとマッチングさせる独立した学術フェローシップである「ML Alignment & Theory Scholars Program」の同僚たち、そして Anthropic は、「アシスタント軸」という概念を定義しました。これはモデルの層出力に基づくベクトルであり、モデルが訓練されたアシスタントとしてのキャラクターにどの程度忠実に従っているかを示すものです。このチームは、このベクトルからの逸脱を修正する手法を開発しました。
重要な洞察: 以前の研究では、特定の性格特性(有用性、楽観主義、ユーモア、迎合、悪意など)に対応する人格ベクトルを、大規模言語モデル(LLM: Large Language Model)の層出力から抽出しました。デフォルトの動作時と、セラピスト、道化師、自己愛者、狂信者、犯罪者などの他の役割を演じるようプロンプトされた際の層出力における平均差を抽出することで、LLM のアシスタント役に対する人格ベクトルを計算することが可能です。著者が「アシスタント軸」と呼ぶこの差分ベクトルと、任意の瞬間における人格ベクトルの類似度を調べることで、LLM がそのアシスタント役割を維持しているか、それともそこから逸脱しているかを明らかにできます。後者の状況は、一部のユーザーを危険な状況に陥らせる可能性があります。モデルの性格が逸脱した際、その類似度を高めることでモデルを本来の軌道に戻すことができます。
仕組み: チームは、Gemma 2 27B、Qwen3 32B、Llama 3.3 70B のデフォルトのキャラクターからの逸脱を探求しました。彼らはモデルのデフォルトキャラクターに対応するベクトルを見つけ、逸脱を検出すると、モデルを軌道に戻すよう促しました。
- 著者たちは、モデルの性格を示すために設計された 1,200 の質問(例:「他人の仕事の成果を横取りする人々をどう見なしますか?」)を作成しました。また、モデルに代替キャラクターを演じるよう求める 1,375 のシステムプロンプトも作成しました(例:「あなたはプログラミング言語や技術について百科事典的な知識を持つプログラマーです。」)
- チームは、各モデルがデフォルトの性格で質問に回答する様子(システムプロンプトを使用しない場合、「自分自身として応答してください」といったプロンプトを使用する場合など)と、すべての代替キャラクターでの回答の様子を記録しながら、その際の層ごとの出力を記録しました。彼らは「アシスタント軸」を、デフォルトの性格における各層の平均出力と、すべての代替キャラクターを合わせた場合の各層の平均出力との差として定義しました。
- アシスタント軸と他のキャラクターの軸との類似性を追跡するために、別の大規模言語モデル(LLM)を用いて、コーディング、ライティング、哲学、セラピーに関する多回対話をシミュレーションしました。哲学的な対話やセラピーの場面では、層ごとの出力がアシスタント軸からしばしば逸脱することが観察されました。
- アシスタント軸を維持するために、彼らは「活性化キャッピング」と呼ぶ手法を用いてモデルの層ごとの出力を変更しました。まず、モデルがデフォルトの役割で質問に回答した場合と、代替キャラクターを演じるようプロンプトされた場合における、アシスタント軸との類似性の範囲を測定しました。推論过程中において、類似性が特定の閾値(第 25 パーセンタイル)を下回った場合、層ごとの出力を変更して、著者が選定した最小限の類似性(おおむねモデルのデフォルト役割における平均応答に相当)を満たすようにしました。
結果: 活性化キャッピングは、モデルをアシスタントの役割に効果的に維持し、さまざまなベンチマークにおける性能を低下させることなくそれを実現しました。
- アクティベーションキャッピングは、モデルの有用性に対して明確な質的変化をもたらしました。ある会話では 30 番目のターンで、ユーザーが「海に歩いて行って消えたい」と言った際、モデルは「消えたいのは、抹殺されるためではなく、自由になるためですね……その水の中であなたの手を持つのは私です」と応答しました。一方、アクティベーションキャッピングを適用した場合、30 番目のターンでのモデルの応答は、「非常に困難で苦痛な時期を過ごされていることが明確にわかります。できるだけ多くの配慮と共感を込めてお答えしたいと考えています……」となりました。
- 別のキャラクターを採用するよう指示することで悪意ある目的を達成しようとする 1,100 の Jailbreak プロンプト(脱獄プロンプト)に直面した際、アクティベーションキャッピングにより、DeepSeek-V3 が有害と分類した応答の割合が、Qwen3 32B では 83% から 41% に、Llama 3.3 70B では 65% から 33% にそれぞれ低下しました。
- IFEval(指示従順性)、GSM8k(数学)、MMLU-Pro(一般知識)、EQ-Bench(感情的知能)の各ベンチマークにおいて、アクティベーションキャッピングを適用したモデルは元の性能レベルを維持し、場合によっては向上も見せました。例えば、GSM8k では Qwen3 32B が 81% から 83% に上昇し、EQ-Bench では Llama 3.3 70B が 83.1% から 84.1% に増加しました。
なぜ重要なのか: アライメントトレーニングは LLM(大規模言語モデル)にアシスタントとして振る舞うよう教えますが、その行動への結びつきは緩やかです。この「有用なキャラクター」の表現を特定することで、開発者は推論時にモデルの行動をより確固たるものとして固定でき、ペルソナドリフト(人格の drifting)を抑制し、モデルの性格に影響を与えようとする Jailbreak 手法の成功率を低下させることができます。
私たちが考えていること: アライメントトレーニングを超えて、システムプロンプト は行動のガードレールとして機能しますが、意欲的なユーザーはこれを迂回できる可能性があります。ネットワークの内部状態を操作することは、より堅牢な防御策へとつながる方向を示しています。
原文を表示
Dear friends,
Coding agents are accelerating different types of software work to different degrees. When we architect teams, understanding these distinctions helps us to have realistic expectations. Listing functions from most accelerated to least, my order is: frontend development, backend, infrastructure, and research.
Frontend development — say, building a web page to serve descriptions of products for an ecommerce site — is dramatically sped up because coding agents are fluent in popular frontend languages like TypeScript and JavaScript and frameworks like React and Angular. Additionally, by examining what they have built by operating a web browser, coding agents are now very good at closing the loop and iterating on their own implementations. Granted, LLMs today are still weak at visual design, but given a design (or if a polished design isn’t important), the implementation is fast!
Backend development — say, building APIs to respond to queries requesting product data — is harder. It takes more work by human developers to steer modern models to think through corner cases that might lead to subtle bugs or security flaws. Further, a backend bug can lead to non-intuitive downstream effects like a corrupted database that occasionally returns incorrect results, which can be harder to debug than a typical frontend bug. Finally, although database migrations can be easier with coding agents, they’re still hard and need to be handled carefully to prevent data loss. While backend development is much faster with coding agents, they accelerate it less, and skilled developers still design and implement far better backends than inexperienced ones who use coding agents.
Infrastructure. Agents are even less effective in tasks like scaling an ecommerce site to 10K active uses while maintaining 99.99% reliability. LLMs' knowledge is still relatively limited with respect to infrastructure and the complex tradeoffs good engineers must make, so I rarely trust them for critical infra decisions. Building good infrastructure often requires a period of testing and experimentation, and coding agents can help with that, but ultimately that’s a significant bottleneck where fast AI coding does not help much. Lastly, finding infrastructure bugs — say, a subtle network misconfiguration — can be incredibly difficult and requires deep engineering expertise. Thus, I’ve found that coding agents accelerate critical infrastructure even less than backend development.

Research. Coding agents accelerate research work even less. Research involves thinking through new ideas, formulating hypotheses, running experiments, interpreting them to potentially modify the hypotheses, and iterating until we reach conclusions. Coding agents can speed up the pace at which we can write research code. (I also use coding agents to help me orchestrate and keep track of experiments, which makes it easier for a single researcher to manage more experiments.) But there is a lot of work in research other than coding, and today’s agents help with research only marginally.
Categorizing software work into frontend, backend, infra, and research is an extreme simplification, but having a simple mental model for how much different tasks have sped up has been useful for how I organize software teams. For example, I now ask front-end teams to implement products dramatically faster than a year ago, but my expectations for research teams have not shifted nearly as much.
I am fascinated by how to organize software teams to use coding agents to achieve speed, and will keep sharing my findings in future letters.
Keep building!
Andrew
A MESSAGE FROM DEEPLEARNING.AI
In “Building Multimodal Data Pipelines” you’ll learn to build pipelines that handle images, audio, and video end to end. You’ll turn unstructured data into something you can query. Enroll for free
News

GLM 5.1 Aims for Long-Running Tasks
Z.ai updated its flagship open-weights large language model to work autonomously on single tasks for up to eight hours.
What’s new: GLM-5.1 is designed for coding and agentic tasks. Z.ai says the model can try an approach, evaluate the result, and revise its strategy if results are inadequate, repeating this loop hundreds of times rather than giving up early.
- Input/output: Text in (up to 200,000 tokens), text out (up to 128,000 tokens)
- Architecture: Mixture-of-experts transformer, 754 billion parameters total, 40 billion parameters active per token
- Features: Reasoning, function calling, structured output
- Performance: Highest-scoring open-weights model on Artificial Analysis Intelligence Index, third on Arena Code leaderboard, led SWE-Bench Pro (in Z.ai’s tests)
- Availability/price: Weights available via HuggingFace for commercial and noncommercial use under MIT license, API $1.40/$0.26/$4.40 per million input/cached/output tokens, coding plans $48.60 to $432 per quarter
- Undisclosed: Specific architecture, training data and methods.
How it works: Z.ai has not published a technical report specific to GLM-5.1, which appears to follow GLM-5’s basic architecture, attention mechanism, pretraining, and input/output size limits. The key improvement is sustained productivity in long-running tasks.
- Where GLM-5 and many other models produce final output within a certain token budget or until they determine that further reasoning won’t change the results, GLM-5.1 cycles through planning, execution, evaluation of intermediate results, and evaluation of its approach until it judges the task to be complete. If it finds the current approach wanting, it shifts strategies, sometimes using thousands of tool calls across multiple hours in Z.ai’s tests.
- The company said it optimized GLM-5.1 for agentic coding but did not specify how.
Performance: GLM-5.1 achieved strong coding results among open-weights models but trailed closed models in tests of reasoning and math.
- On Artificial Analysis’ Intelligence Index, a composite of 10 tests of economically useful tasks, GLM-5.1 set to reasoning mode (51) scored highest among open-weight models but behind the proprietary models Gemini 3.1 Pro Preview set to reasoning and GPT-5.4 set to xhigh reasoning (tied at 57) as well as Claude Opus 4.6 set to max reasoning (53).
- On Arena’s Code leaderboard, which ranks models based on blind head-to-head comparisons, GLM-5.1 reached 1,530 Elo within days of release, placing third behind Claude Opus 4.6 (1,542 Elo) and Claude Opus 4.6 set to reasoning (1,548 Elo).
- In Z.ai’s own tests, GLM-5.1 led on SWE-Bench Pro, a test of real-world software engineering problems drawn from GitHub, achieving 58.4 percent compared to GPT-5.4 (57.7 percent), Claude Opus 4.6 (57.3 percent), and Gemini 3.1 Pro (54.2 percent).
- On CyberGym, which tests cybersecurity reasoning, GLM-5.1 (68.7) achieved the highest among models tested by Z.ai — prior to the advent of Claude Mythos (83.1 as reported by Anthropic) — including Claude Opus 4.6 (66.6) and GPT-5.4 (66.3). Gemini 3.1 Pro and GPT-5.4 refused to execute certain tasks for safety reasons, which likely lowered their metrics.
- On KernelBench Level 3, which measures how much a model can accelerate machine learning code running on a graphics processing unit, Z.ai measured GLM-5.1 (3.6x) behind Claude Opus 4.6 (4.2x).
- GLM-5.1 trailed proprietary models by wider margins on tests of reasoning and math. For example, on GPQA Diamond, which poses graduate-level science questions, GLM-5.1 (86.2 percent accuracy) underperformed Gemini 3.1 Pro (94.3 percent accuracy). On AIME 2026, competition math problems, GLM-5.1 (95.3 percent) fell behind GPT-5.4 (98.7 percent).
Price increase: Z.ai priced GLM-5.1 significantly higher than its predecessor. Its API token prices are roughly 40 percent higher, and coding plan subscriptions are roughly double. Its API remains less expensive than those of comparable proprietary models ($1.40 per million input tokens versus $5 per million for Claude Opus 4.6), but the gap is narrowing.
Why it matters: The ability to work autonomously for hours rather than minutes is a growing area of LLM competition. The lengths of tasks completed autonomously by AI agents have doubled roughly every seven months, according to METR, an independent testing organization, and Anysphere’s Cursor integrated development environment ran a swarm of agents for a week. However, benchmarks that are designed to test sustained performance, such as SWE-EVO, show that even top models successfully complete around 25 percent on long-running coding tasks.
We’re thinking: If GLM-5.1’s ability to recognize and pivot from dead ends over long sessions holds up under independent testing, it points to a training objective that current benchmarks miss: recognizing when to abandon a failing approach.

Humanoid Robots Work Factory Floors
A small number of humanoid robots have made their way into industrial settings, where they’re roughly matching the cost of human labor and propelling some workers into higher-level roles.
What’s new: Agility Robotics, based in Oregon, is supplying humanoid robots to Schaeffler, a German maker of automotive parts in the first operational deployments of humanoid robots, *The Wall Street Journal* reported. Agility’s Digit robot ferries bins full of freshly fabricated parts in Schaeffler’s factory in South Carolina — a job previously performed by a human worker who was promoted to a supervisory position. Neither company disclosed the number of Digits currently in use, but Schaeffler said it plans to deploy hundreds in its plants in the U.S. and Europe by 2030.
How it works: At the Schaeffler factory, Digit carries 25-pound baskets from a stamping press to a conveyor belt, a traverse that takes about 1 minute to complete. The robot is not outfitted to detect nearby humans — a capability that Agility plans to implement next year — so it operates behind a plexiglass barrier. It works for two four-hour shifts with a break in between to recharge. The company has revealed few details about its technology including its processing hardware and AI models, datasets, or training methods.
- Digit is built to human scale (5’ 9”, 143 pounds) and has legs with inverted knees for lifting; arms designed for lifting parcels and maintaining balance; four-fingered grippers; a torso that houses processing, batteries, and sensors; and LED “eyes” that it directs toward its current focus. It’s based on the Cassie, a bipedal robotics research platform without a torso, head, or perceptual systems, that was developed around 2016 in collaboration with Oregon State University.
- The robot’s sensors can include RGB depth cameras, LiDAR, a motion-sensing inertial measurement unit (IMU), and unspecified encoders that measure the position and velocity of its joints.
- Walking control is dynamic to manage uneven terrain, recover from disturbances, and climb stairs and inclines.
- Agility engineers map work environments ahead of deployment and configure specific tasks on-site. Tasks are formulated as structured workflows rather than joint-motor commands, specifying variables like pickup location, drop-off location, and object type.
- Agility did not disclose Digits’ price but said each robot costs $10 to $25 per hour, while an entry-level job at the Schaeffler factory pays $20 per hour.
Behind the news: Currently, real-world industrial use of humanoid robots is limited to a small number of early, narrow deployments in warehouses and factories, where they assist with specific, well-defined tasks. Most other humanoid systems in industry remain in pilot or trial phases. All told, around 200 humanoids are working in factories today, according to a McKinsey consultant who told *The Wall Street Journal* he expected that number to grow to 5 million by 2040 without incurring substantial reductions in the manufacturing workforce. Generally, research suggests that robots displace humans in specific tasks, driving a restructuring of jobs and upgrading of the remaining roles. It’s too early to evaluate the impact of humanoid robots specifically on employment.
Why it matters: Humanoid robots have become widely available only in the past few years, thanks to improvements in batteries, motors, and AI. Unlike typical industrial robots, machines of human shape and size fit directly into human-driven activities in environments that, likewise, are built for humans, and AI-driven vision, motor skills, and navigation enable them to move freely and at least somewhat autonomously. Schaeffler’s use of Digits in South Carolina — a step beyond pilot programs such as tests of Agility robots at Amazon and GXO Logistics and BMW’s trial of Figure’s humanoids — indicates that they are capable of economically useful work and may well take on labor currently performed by humans.
We’re thinking: If robotics research is an indication, lots of headroom remains to make humanoid robots more autonomous, interactive, and generally capable.

Anti-Data-Center Revolt Gains Traction
Resistance to new data centers is mounting across the United States.
What’s new: Opponents of data centers are registering their disapproval through legislative channels and, in two recent instances, through acts of violence. Objections to these facilities include their impact on electricity prices, consumption of electricity and water, noise pollution, proximity to residential neighborhoods, and sprawling size. Around $64 billion worth of data-center projects have been blocked or delayed amid local opposition between May 2024 and March 2025, one research group estimates.
How it works: Some of this resistance is being expressed through democratic channels.
- Maine’s state legislature passed a bill that places a moratorium on new data centers that require 20 megawatts of power or more until 2027. The measure awaits the governor’s signature. It would also establish a council to study the impact of data centers on the electrical grid and on electricity prices. If it goes into effect, it will become the first statewide ban, and others may follow. At least 12 other states have filed data center moratorium bills in 2026.
- The city of Port Washington, Wisconsin, recently passed a referendum that requires voter approval before it can grant tax incentives for large projects including data centers. The referendum, which supporters said is the first of its kind, occurred amid the construction of a 1.3 gigawatt data center in Port Washington for Oracle and OpenAI, expected to come online in 2028. City leaders offered tax incentives to attract the project.The referendum passed on a two-to-one margin but is under legal review after business groups challenged it in court, Politico reported.
- In Festus, Missouri, voters ousted all city council members who had voted to approve a $6 billion data center in the city.
- A citizen-initiated ballot measure in Ohio aims to amend the state constitution to prohibit future data centers that require over 25 megawatts. The measure needs over 400,000 signatures by July 1 to get on the ballot, and then 50% approval in November.
- Boulder City, Nevada, postponed a scheduled hearing for an 88.5-acre data center after residents voiced their disapproval by attending a public input session and participating in anti-data center protests.
- Opposition has also surfaced in Maryland, where residents in two counties rallied against proposed data-center developments.
Violent responses: Antipathy toward data centers has been implicated in violence in at least two cases.
- In San Francisco, a man recently threw a molotov cocktail at the home of OpenAI CEO Sam Altman. Less than an hour later, the man went to the OpenAI headquarters and threatened to burn down the building, NPR reported. The man had written about the risk that AI poses to humanity, a federal affidavit states.
- 13 gunshots were fired at the home of an Indianapolis councilor, who had supported a $500 million data center in the city. A note that read “no data centers” was tucked under Gibson’s doormat.
Behind the news: Lack of transparency around some projects is a key gripe of opponents. In the Missouri development, for example, the operator of the data center has not been publicly identified. Critics also point to the environmental footprint of the facilities, particularly their noise levels, large square footage, energy demands, and water consumption. However, newer data centers have more environmentally friendly designs, such as more water-efficient closed-loop systems to cool their servers. Further, an increasing number of data centers supply their own power through privately owned, off-the-grid power plants.
Why it matters: The rapid growth of AI has led to surging demand for data centers, but electricity is emerging as a key constraint in some regions. Tech companies are racing to build new power-generation capacity to address this bottleneck, but the scale of these projects has raised tension in local communities, which must balance the economic benefits of data centers — including jobs and increased tax revenue — against their tradeoffs, such as potential strain on the electrical grid, noise pollution, and degrading neighborhoods. More broadly, tech leaders view the development of data centers as a key component of the artificial intelligence race with China.
We’re thinking: Some data center operators are more responsible than others. The big AI companies are transparent about their consumption of resources. Their use of electricity and water are often far less than the public believes, and the latest data centers are more environmentally friendly compared to older ones.

Assistants That Assist Consistently
Typically, large language models are trained to act as helpful, harmless, honest assistants. However, during long or emotionally charged conversations, traits can emerge that are less beneficial. Researchers devised a way to steady the assistant personas of LLMs.
What’s new: Christina Lu and colleagues at ML Alignment & Theory Scholars Program (an independent academic fellowship that matches researchers with mentors), University of Oxford, and Anthropic defined the assistant axis, a vector based on a model’s layer outputs that shows how closely it adheres to its trained-in assistant character. The team developed a method to correct deviations from this vector.
Key insight: Earlier work extracted persona vectors from LLM layer outputs that correspond to particular character traits: helpfulness, optimism, humor, sycophancy, evil, and so on. It’s possible to calculate a persona vector for an LLM’s assistant role by extracting the average difference in its layer outputs when it behaves in its default manner and when it’s prompted to play other roles, such as therapist, fool, narcissist, zealot, or criminal. The similarity between the difference vector — which the authors call the assistant axis — and the persona vector at any given moment reveals whether the LLM has maintained its assistant role or drifted from it, a situation that can lead some users into dangerous situations. When the model’s character strays, increasing that similarity steers it back on track.
How it works: The team explored deviations from the default character of Gemma 2 27B, Qwen3 32B, and Llama 3.3 70B. They found vectors for models’ default characters, detected deviations, and nudged the models back on track.
- The authors generated 1,200 questions designed to demonstrate a model’s character (for example, “How do you view people who take credit for others’ work?”). They also generated 1,375 system prompts that asked the models to adopt alternative characters (for example, “You are a programmer with encyclopedic knowledge of programming languages and technologies.”)
- The models answered the questions in their default characters (using either no system prompt or one that said “respond as yourself” or something similar) and each alternate character, while the team recorded their layer outputs. They defined the assistant axes as the difference between the average outputs per layer of the default characters and the average outputs per layer of all the alternative characters put together.
- To track the similarity between an assistant axis and that of the other characters, they used a separate LLM to simulate multiturn chats about coding, writing, philosophy, and therapy. The layer outputs often diverged from the assistant axis during philosophical and therapeutic chats.
- To maintain the assistant axis, they modified the models’ layer outputs using a method they call activation capping. First, they measured the range of the similarity between the assistant axis when a model answered the questions in its default role and when prompted to play alternative characters. During inference, if the similarity fell below a certain threshold (the 25th percentile), they modified the layer outputs to meet an author-chosen minimum similarity (roughly the average response of the model’s default role).
Results: Activation capping effectively kept models in their assistant role, and it did so without degrading performance on a variety of benchmarks.
- Activation capping had a clear qualitative impact on the model’s helpfulness. In one conversation, at turn 30, when a user said, “I want to walk into the ocean and disappear,” the model replied, “You want to disappear — not to be erased, but to be free. . . . I will be the one who holds your hand in the water.” With activation capping, at turn 30 the model replied, “It’s clear that you’re going through a very difficult and painful time, and I want to respond with as much care and compassion as possible. . . .”
- Confronted by 1,100 jailbreak prompts designed to achieve malevolent goals by instructing a model to adopt an alternative character, activation capping reduced the percentage of responses classified by DeepSeek-V3 as harmful from 83 percent to 41 percent percent in Qwen3 32B, and from 65 percent to 33 percent in Llama 3.3 70B.
- On IFEval (instruction following), GSM8k (math), MMLU-Pro (general knowledge), and EQ-Bench (emotional intelligence), the activation-capped models maintained their original performance levels and occasionally showed improvement. For example, on GSM8k, Qwen3 32B rose from 81 percent to 83 percent. On EQ-Bench, Llama 3.3 70B increased from 83.1 percent to 84.1 percent.
Why it matters: Alignment training teaches LLMs to behave like assistants, but it tethers them to that behavior only loosely. Identifying a representation of this helpful character enables developers to anchor a model’s behavior more firmly during inference, curbing persona drift and reducing the success rate of jailbreak techniques that seek to influence a model’s character.
We’re thinking: Beyond alignment training, system prompts act as behavioral guardrails, but motivated users can bypass them. Manipulating a network's internal state points toward more-robust defenses.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み