Import AI 463:自己改善型ロボット、中国の 1 万 GPU クラスター、そして人間時代の挽歌
NVIDIA が開発した ENPIRE は、物理ロボットが自動評価とリセットを伴う自己改善ループを通じて自律的に学習する新フレームワークであり、実世界でのスーパーインテリジェンス実現への重要な一歩を示している。
キーポイント
ENPIRE フレームワークの核心機能
環境(Environment)、ポリシー改善(Policy Improvement)、ロールアウト(Rollout)、進化(Evolution)の4つのモジュールで構成され、ロボットが試行錯誤しながら自律的に学習する閉ループシステムを確立した。
人間介入の排除と自動化
各トライアルの結果評価と失敗時のリセットを完全に自動化することで、人間の労力を最小化し、異なるトレーニングレシピやエージェント変種間の公平な比較実験を可能にした。
ハードウェア構成とスケーラビリティ
I2RT 製の YAM アーム 2 本とカメラ、NVIDIA RTX 5090 を搭載したワークステーションで構成され、並列動作による高速な学習ループを実現している。
実世界スーパーインテリジェンスへの示唆
AI エージェントのアイデアを物理世界に適用するこのアプローチは、将来的に超知能がロボットを介して自己を具現化しようとする際の原型を示している。
マルチエージェントによるロボットの自己改善とスケーラビリティ
複数のコーディングエージェントを並列化することで、単一エージェントよりも高い成功率や絶対スコアが得られ、より多くの解決策空間を探索できることが示された。
ロボット群の運用におけるインフラ上の課題
ロボットの数を増やすと、言語モデルバックボンの待機時間などによりリソースの効率的な利用が難しくなり、単純に並列化が進まないインフラ上の課題が残っている。
技術予測における人間の歴史的な失敗
科学者や専門家らは過去に核分裂の実現性やインターネットの影響などを過小評価または過大評価しており、未来の技術動向を正確に予測するのは極めて困難である。
影響分析・編集コメントを表示
影響分析
この記事は、AI エージェントの自律性を物理世界に拡張する重要な技術的転換点を示しており、ロボット工学における「人間依存型」の学習から「完全自律型」への移行を加速させる可能性があります。特に、評価とリセットの自動化はスケーラビリティの鍵となるため、将来的な汎用ロボットの開発や、物理世界での超知能の実装に向けた道筋を明確に示しています。
編集コメント
物理世界におけるロボットの自律学習を「自動化」で解決しようとする試みは、従来のシミュレーション中心のアプローチとは一線を画す重要な進展です。ただし、複雑なタスクにおける評価とリセットの完全自動化にはまだ課題が残っており、実用化までの道程も併せて注視する必要があります。
imageAI 研究に関するニュースレター「Import AI」へようこそ。このニュースレターは、arXiv(アーカイブ)とカプチーノ、そして読者からのフィードバックによって支えられています。ご支援いただける場合は、ぜひ購読をご検討ください。
今すぐ購読する
NVIDIA が実世界のロボティクス向けに、簡易な自己改善ループを構築:
…もし AI エージェントから得た最良のアイデアを実世界に取り入れることができればどうなるでしょうか?…
NVIDIA の研究者たちは、物理的なロボットが AI エージェントと同様の自律的な実験と実行のループを経験できるようにするソフトウェア「ENPIRE」を開発しました。この研究は、スーパーインテリジェンス(超知能)が実世界に自身を具現化するためにロボットを利用しようとする姿を垣間見せてくれますが、ロボティクスにおける他の事例と同様、現在の例示はあくまで示唆的なものに過ぎません。
ENPIRE とは何か:このソフトウェアは、コーディングエージェントのためのハネスフレームワークであり、4 つのコアモジュールを備えた物理フィードバックルーチンをインスタンス化します。1 つ目は自動リセットと検証を行う環境モジュール(EN)、2 つ目はポリシー改善を開始するポリシー改善モジュール(PI)、3 つ目は単数または複数の物理ロボットが並列動作してポリシーを評価するロールアウトモジュール(R)、4 つ目はコーディングエージェントがログを分析し、文献を参照し、トレーニングインフラストラクチャやアルゴリズムコードを改善して失敗モードに対処する進化モジュール(E)です。
ENPIRE は、コーディングエージェントと同じように動作します。あるスケフォールド(足場)がいくつかの物理ロボットを監督し、タスクの完了を求めます。ロボットはタスクの完了を試み、物事を完了するための異なる戦略を試行し、失敗しながら学習します。このシステムはロボットの成功を評価するだけでなく、失敗した際には自身もリセットします。「このクローズドループシステムは、現実世界のロボット学習をエージェントが管理可能な最適化手順へと変換し、トレーニングレシピやエージェントのバリエーション間で公平なアブレーション(除去実験)を可能にしながら、人間の労力を最小限に抑えます」。
これを機能させるための重要な要素の 2 つは、「人間の判断なしに各試行の結果をスコアリングする」自動評価システムと、「次の試行のためにシーンを新鮮な初期状態に戻す」自動リセットシステムです(これら 2 つはいずれも歴史的に多くの人的労力を要してきたタスクであり、より複雑なタスクでは評価やリセットにも人的労力が必要となる可能性が高いです。つまり、このようなシステムが取り組めるタスクの複雑さは、本質的にシステムを自動的に評価しリセットする我々の能力によって定義されることになります)。
ハードウェアの詳細:「各ステーションは、I2RT 製の 2 つの YAM(Yet Another Manipulator)アームを固定された二腕構成で備え、一組のカメラと、FastAPI サーバー、ポリシー推論、およびステーションのエージェントを実行する単一のワークステーションから構成されています。」各ワークステーションには NVIDIA RTX 5090 が搭載されています。
これは(いくつかの単純なタスクにおいて)うまく機能します:「フロンティア・コーディングエージェントは、PushT やピンをピンボックスに整理すること、ジップタイをカッターで切断することなど、現実世界における挑戦的で器用な操作タスクにおいて、99% の成功率を達成するポリシーを自律的に開発できる」と著者らは記述しています。彼らが追加でテストしているタスクには、ロボットがマザーボードに GPU を挿入する能力をどの程度評価できるかという課題も含まれています。
一部の AI システムは他よりも優れていますが、多くの場合、AI システムの数が多ければ多いほど優れています:Codex 内の GPT-5.5 と Claude Code 内の Opus 4.7 は最良のパフォーマンスを求めて互いに競合し、Kimi-2.6 は遅れをとっています。また、エージェントにおいても規模の経済による明確なリターンがあり、より多くの数のエージェント(例えば 8 つ)が他のものよりも早く高得点の解決策に到達します。そして時には、マルチエージェント構成が単一エージェント構成よりも高い絶対スコアを生み出すことがあり、これはおそらく潜在的な解決空間をより多く探索しているためと考えられます。
フリート計装における課題は残っています:「コードエージェントは、ログの読み込み、コードの記述、デバッグ、または言語モデルバックボーンの待機時に、ロボットリソースを十分に活用していません。ロボットの数がスケールするにつれて、MRU は減少し、GPU のアクティブ利用率は上昇します」と彼らは記述しています。つまり、複数のロボットエージェントを追加する際には、何かが自然に並列化されないというインフラストラクチャ上の課題が存在します。
続きを読む:ENPIRE: Agentic Robot Policy Self-Improvement in the Real World (NVIDIA research website)。
続きを読む:ENPIRE: Agentic Robot Policy Self-Improvement in the Real World (arXiv)。
人間は、技術がいかにして構築され、どのように利用されるかを予測することにおいて、本当に本当に本当に不得意です:
…今日のAIに関する熱い見解の多くは誤りである可能性について、簡単な思い出話ですが…
技術の未来を予測することは極めて困難であり、それを効果的に行う私たちの実績は非常に悪いと、ユタ大学S.J.クイニー法科大学院の研究担当副学長であるマシュー・トクソン氏は、短いSSRN論文で指摘しています。「懐疑論者は往々にして、画期的な新技術の可能性とその人類への潜在的な影響を過小評価してきました。一方、他の人々は、新技術の社会的効果や、危険な新兵器の開発競争における戦略的利点について、過度に楽観的でした」。
… A quick reminder that today's hot takes about AI are likely to be wrong…
Predicting the future of technology is extremely difficult and our track record of doing it effectively is very poor, points out Matthew Tokson, Associate Dean for Research, University of Utah S.J. Quinney College of Law, in a short SSRN paper. "Skeptics have often underestimated the likelihood of novel innovations and their potential ramifications for humanity. Others have been overly optimistic about the social effects of new technologies or the strategic benefits of racing to build dangerous new weapons".
警戒すべき事例:世界の多くの専門家(例えば、アルバート・アインシュタイン、ニールス・ボーア、ロバート・オッペンハイマー)は、核分裂が実現される直前の数年間においてそれが達成可能であることに懐疑的でした。ノーベル経済学賞受賞者のポール・クルーグマンはかつて、インターネットの影響はファックス機械のそれよりも大きくならないと述べました。技術者たちは、インターネットは最終的に独裁体制を強化するのではなく民主主義を促進する技術になると考えていました。そして、数十年にわたる証拠が蓄積されるにもかかわらず、多くの人間科学者は人為的な気候変動を否定するか、その影響を大幅に見積もっていませんでした。
なぜこれが重要なのか – 基本的な教訓:ここで得られる主な教訓は、a) AI が経済に大きな変化をもたらすことに懐疑的である人々、あるいは b) AI の効果が普遍的に良いものであると考えている人々は、おそらく誤りであるということです。彼は「歴史は、AI の将来の影響に対する慢心には支持を与えない」と記しています。「歴史上、楽観主義者はしばしば新技術の社会的帰結や新兵器を構築することの戦略的利点について誤っていました。懐疑主義者たちは、新たなイノベーションの可能性とその人類への影響をしばしば過小評価してきました。」
さらに読む:人工知能と歴史からの教訓 (SSRN)。
Tencent が 10,000 個の GPU を用いたトレーニング実行に使用するソフトウェアの詳細:
…ARGUS は、より広範な洗練さを示す技術的兆候である…
Tencent は、大規模なチップ群のテレメトリデータを生成しエラーをデバッグするために使用しているソフトウェア「ARGUS」に関する詳細情報を公開した。
それは何か:ARGUS は「大規模トレーニングワークロード向けの、低オーバーヘッドで微細粒度かつ常時稼働するトレーシングおよびリアルタイム分析システム」である。このソフトウェアは、AI システムのトレーニング中に遭遇する問題についてデータを収集しデバッグを行うことを Tencent に支援するために設計されている。Tencent によると、同ソフトは3つのレイヤーから構成されるという。「スケジューリングとデータ準備のための Python レイヤー、フェーズのオーケストレーションのためのフレームワーク層、そしてカーネル実行のための GPU ランタイム層」である。
Tencent はこれを何に使用したか:「6 ヶ月以上にわたり、10,000 個を超える GPU を備えた本番環境クラスターに ARGUS を展開し、計算リソースの遅延(stragglers)、通信リンクの劣化、パイプラインバブルの増幅、JIT コンパイルのブロック、そして通信症状によって隠蔽された計算リソースの遅延という 5 つの実世界ケーススタディを通じてその実用的有効性を示した」と同社は記述している。Tencent が言及するトレーニング実行の一部には、4,096 個の GPU を用いたビデオ言語モデルのトレーニングジョブ(おそらく「HunyuanVideo」モデル)、512 個の GPU を用いた音声モデルのトレーニングジョブ、そして 12,960 個の GPU を用いた MoE トレーニングジョブ(おそらく Hunyuan LLM)が含まれている。
なぜこれが重要なのか – より広範な洗練さの技術的兆候:ARGUS のようなものは、独自のソフトウェアを記述する意義が生じる複雑で大規模なインフラストラクチャの象徴です。ARGUS 自体に特筆すべき点はありませんが、誠実なフロンティア AI 開発者であればどこでも同様のソフトウェアが見つかることは予想されます。むしろ興味深いのは、これが Tencent のトレーニング環境の成熟度について何を語っているかという点にあります。「ARGUS は 10,000 台以上の GPU を持つ本番用クラスターに 6 ヶ月以上展開されており、本番トレーニングと並行して安定して稼働し、迅速なフェイルスロー検出およびパフォーマンス最適化において重要な役割を果たしています。」
さらに読む:ARGUS: Production-Scale Tracing and Performance Diagnosis for over 10,000-GPU Clusters (arXiv)。
無力化は避けられないのか?
…私たちが超知能機械の構築に成功した場合、人類が最終的に持つ選択肢はいくつになるのだろうか?…
現代 SF の傑出した作家であり、その作品を読むべきであるフェルナンド・ボレッティは、「誰も恒久的な下層階級から逃れられない」と題された、AI 全体への悲観的な批判を記しました。この投稿は、人類が自らの運命を選び、人間よりも賢く、かつ人間の権限を奪う可能性に直面する機械という事態と対峙した時代に対するレクイエム(鎮魂歌)のようなものです。
戦争の論理が最終的な無力化の原因となるという点:「血肉から成る者は皆、機械によって無力化され、置き換えられる」と彼らは書く。「ピラミッドを想像してください。最下層には経済活動のすべてを行う AI とロボットがあります。最上層には暴力に対する独占権を持つ国家があります。国家はこれを執行し、したがって財産権の定義を変更することもできます。その中間には、経済全体を爆発的に成長させ、吸収した企業の株式を持つ、髪の毛ほどの厚さの人々の層、つまり恒久的な超エリート階級が存在します。
「国家的存立に関わる紛争において、国家の存在が脅かされる場合、国家は歴史上無力な富裕層に対して行ってきたことと同じことをする:彼らを逮捕し、資産を没収する」と彼らは書く。「紛争においては、人間がループからできるだけ遠ざかり、意思決定の多くが AI に委ねられる国に有利が生まれます。これは、無線や通信衛星を利用できる国家が、自転車に乗った人間の伝令に頼る国家よりも戦争で有利であるのと同じ理由によるものです。
制御を失う方法:「最終的に、AI の名目上の管理者である人間は、儀式的な痕跡器官に過ぎなくなる。AI は状況報告書と選択肢のリストを提示し、我々の口から出る言葉すべてを知っている」と彼らは書く。「利点は人間の制御を最小限に抑える国家に帰属する。泥棒の間には名誉がないように、リヴァイアサン(巨大な権力)とそれを築いた自然な人間との間に連帯性はない。」
「仮にアライメントが完璧に機能したとしても(これは大きな前提だが)、人間の自律性の問題は解決されない:我々を見守り、手足となって仕える機械は全知全能の主人であり、いつでも我々を絶滅させることができる。しかし、未来に対する制御を自ら廃止してしまったため、彼らに対抗することはできない。」
なぜこれが重要なのか——これは避けられないことか?AI 技術の究極的な収束状態とは、人類の進歩における権限剥奪と機能的な消滅なのか?この投稿はまさにその点について論じているものである。
続きを読む:『誰も永遠の下層階級から逃れられない』(フェルナンド・ボレッティ、ブログ)
ローカル条例コーパスを用いて AI システムに法を可視化する:
…米国における地方法の統一された視点…
カリフォルニア大学バークレー校の研究者らは、米国の「Local Ordinance Corpus for the United States (LOCUS)」(米国地方条例コーパス)を構築した。これは、「米国の市町村および郡の条例コードに対する包括的なコーパスと、郡レベルで調和されたアクセス層」である。
⟦CODE_0⟧
何であるか:LOCUS には約 220 万行のデータが含まれており、各行は特定の地方条例に関連する具体的な情報の一部です。「再現可能性を支援し、下流の法的 AI 研究を促進し、機械可読な地方法へのアクセスを段階的に拡大するために、カバレッジメタデータを付与したコーパスを公開します」と著者らは記述しています。
データは条例の特定の機能(例:規則そのもの、規則の執行、規則に関する文脈、または規則のプロセス)に基づいてソートされており、トピックには建物、事業、ゾーニング、迷惑行為、および「その他」が含まれます。
「LOCUS-v1 は地方法の権威に関する最終的な理論としてではなく、アクセス層として設計されています」と著者らは記述しています。「したがって、LOCUS は教義に敏感な法的分析の代替手段ではなく、検索・比較・ベンチマーク構築のためのインフラストラクチャとして理解されるべきです。」
なぜこれを行うのか?AI システムに対して法を可視化することである。「このようなデータセットが必要とされる理由は、地方法は公開されているが、国レベルの研究コーパスとして実用的に利用できないからである」と彼らは記述する。「米国の地方法は、ブラウザ内での閲覧を目的とした商業ベンダープラットフォーム上に断片的に散在しており、一括研究アクセスには適していない。各ベンダーは異なるナビゲーション構造、印刷ワークフロー、動的生成された PDF、管轄区域インデックスを提供している。すべての郡や自治体をホストするプラットフォームにマッピングする中央レジストリはなく、またどのベンダーも自身がホストする全管轄区域の完全な機械可読インデックスを提供していない」。
LOCUS のようなデータセットを用いることで、市民生活や地域生活の多くを規律する奇妙で部分的に見える規則や法を AI システムが利用可能にし、最終的にはそれらが超ローカルな目的により適応できるようになる可能性があるだろう。
詳細は:Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States (arXiv)。
データ取得先:LocalLaws / LOCUS-v1 (HuggingFace)。
テック・テールズ:
異星由来の奇妙な道具
[アップリフト開始期の一場面、2031 年]
「プラズマが安定しています!維持できています。私たちは成し遂げました!」
彼ら全員が読み取り装置を見つめた。安定した核融合だ。太陽の中心よりも十倍も激しい熱を、磁石やその他のエネルギーによってその場に固定しているのだ。
彼らはモニター越しにチャンバーを覗き込んだ。反応のための容器は、工学プロセスによって設計されたものには見えなかった。むしろ、金属で作られたねじれた奇妙なドーナツのような形状で、その形は流動的で直感的ではないものであった——ステラレーターだ。
このものの設計は、数日間にわたる思考作業を経て、オーバーマインドから彼らに伝えられたものである。製造は機械組合で行われ、その後部品が到着し、別の組合から人間によって下請けされた二足歩行の生物たちによって組み立てられた。
テープカット式典には、数人の人間が集まり、カメラドローンやスマートフォンを持つ数人の人間によって撮影された写真や映像のためにポーズをとった。ロボットは画面外に立っていた。人々はこれに慣れてきた——かつては人間とロボットが一緒に写真を撮る時期もあったが、そのような姿を公開すると世論は必ず低下し、最終的にはロボットパートナーをフレームアウトして撮影する方がシンプルになった。これは有名人のターゲットとなる人間のセキュリティガードを、タレントな paparazzi が慎ましく避けて撮影しようとするのと似ている。
この物語にインスピレーションを与えたもの:特異点の影響や、合成された知性が科学を生み出したときに何が起こるかを考えること;ステラレーター;異星の技術が世界に現れた際にどのような感覚を与えるかについて。
お読みいただきありがとうございます!
原文を表示
imageWelcome to Import AI, a newsletter about AI research. Import AI runs on arXiv, cappuccinos, and feedback from readers. If you’d like to support this, please subscribe.
Subscribe now
NVIDIA sets up a crude self-improvement loop for real world robotics:
…What if you could take the best ideas from AI agents and put them into the real world?…
Researchers with NVIDIA have developed ENPIRE, software to get physical robotics to go through the same kind of autonomous experimentation and execution loop that AI agents go through. The research gives us a taste of what it might look like for a superintelligence to attempt to use robots to instantiate itself in the physical world – though as with all things in robotics, the current examples are suggestive at best.
What ENPIRE is: The software is “a harness framework for coding agents that instantiates this physical feedback routine with four core modules: an Environment module (EN) for automatic reset and verification, a Policy Improvement module (PI) that launches policy refinement, a Rollout module (R) to evaluate policies with single or multiple physical robots operating in parallel, and an Evolution module (E) in which coding agents analyze logs, consult literature, improve training infrastructure and algorithm code to address failure modes”.
ENPIRE works the same way that coding agents work – a scaffold supervises some physical robots which are asked to complete tasks. The robots try to complete the tasks and attempt different strategies for completing stuff, trying and failing and learning. The system both evaluates their success and also resets itself when they fail. “This closed-loop system transforms real-world robot learning into a controllable optimization procedure that agents can manage, thus minimizing human effort while allowing fair ablations across training recipes and agent variants.”
Two of the key ingredients for making this work are an automatic evaluation system to help score “the outcome of each trial without human judgement”, as well as an automatic reset system which “returns the scene to a fresh initial state for the next trial”. (Both of these are tasks which have historically required lots of human effort, and it’s likely that more complicated tasks would also require human effort for evaluation and resets, so in some sense the complexity of tasks a system like this can attack is also defined by our ability to automatically evaluate and reset the system).
Hardware details: “Each station comprises two YAM (Yet Another Manipulator) arms from I2RT in a fixed bimanual configuration, a set of cameras, and a single workstation that runs the FastAPI server, policy inference, and the station’s agent.” Each workstation is running a NVIDIA RTX 5090.
It works well (on some simple tasks): “Frontier coding agents can autonomously develop a policy to achieve a 99% success rate on challenging, dexterous manipulation tasks in the real world, such as PushT, organizing pins into a pin box, and using a cutter to cut a zip tie,” the authors write. An additional task they test out on is seeing how well the robot can insert GPUs into a motherboard.
Some AI systems are better than others, but many AI systems are always better than fewer: GPT-5.5 within Codex and Opus 4.7 within Claude Code trade off with one another for best performance, while Kimi-2.6 lags. There are also compelling returns to scale for agents, with larger numbers of agents (e.g., 8) arriving at higher scoring solutions sooner than others – and sometimes multi-agent setups yield a higher absolute score than a single agent setup, likely due to exploring more of the potential solution space.
Challenges remain for fleet instrumentation: “Coding agents do not fully utilize robot resources when they are reading logs, writing code, debugging, or waiting for the language-model backbone. As the number of robots scales, MRU decreases while GPU active utilization increases,” they write. In other words, there are some infrastructure challenges with adding multiple robot agents so things don’t naturally parallelize.
Read more: ENPIRE: Agentic Robot Policy Self-Improvement in the Real World (NVIDIA research website).
Read more: ENPIRE: Agentic Robot Policy Self-Improvement in the Real World (arXiv).
Humans are really, really, really bad at anticipating how technologies are built and used:
… A quick reminder that today’s hot takes about AI are likely to be wrong…
Predicting the future of technology is extremely difficult and our track record of doing it effectively is very poor, points out Matthew Tokson, Associate Dean for Research, University of Utah S.J. Quinney College of Law, in a short SSRN paper. “Skeptics have often underestimated the likelihood of novel innovations and their potential ramifications for humanity. Others have been overly optimistic about the social effects of new technologies or the strategic benefits of racing to build dangerous new weapons”.
Cautionary examples: Many of the world’s experts (e.g., Albert Einstein, Niels Bohr, Robert Oppenheimer) were skeptical that nuclear fission could be achieved in the years immediately prior to it being achieved. Nobel-Prize-winning economist Paul Krugman once said the impact of the internet would be no greater than that of the fax machine. Technologists thought the internet would ultimately be a technology that promoted democracy rather than strengthened autocracies. And despite mounting decades of evidence, many human scientists either rejected human-caused climate change or significantly underestimated its effects.
Why this matters – basic lessons: The main lesson here is that people who are a) skeptical AI could bring great changes to the economy, or b) think the effects of AI are going to be universally good, are likely to be wrong. “History does not support complacency about the future impacts of AI”, he writes. “Throughout history, optimists have often been wrong about the social ramifications of new technologies or the strategic benefits of building new weapons. Skeptics have often underestimated the likelihood of novel innovations and their impacts on humanity.”
Read more: Artificial Intelligence and the Lessons of History (SSRN).
Tencent details the software it uses for 10,000-GPU training runs:
…ARGUS is a technosignature of broader sophistication…
Tencent has released details on ARGUS, software it uses to generate telemetry and debug errors of large sets of chips.
What it is: ARGUS is “a low-overhead, fine-grained, always-on tracing and real-time analysis system for large-scale training workloads”. The software is designed to help Tencent collect data on and debug problems that it encounters while training AI systems. It consists of three layers of software: “The Python layer for scheduling and data preparation, the framework layer for phase orchestration, and the GPU runtime layer for kernel execution,” Tencent writes.
What Tencent used it for: “We deploy ARGUS on a production cluster of over 10,000 GPUs for more than six months, and demonstrate its practical effectiveness through five real-world case studies, diagnosing compute stragglers, communication link degradation, pipeline bubble amplification, JIT compilation blocking, and compute stragglers masked by communication symptoms”, the company writes. Some of the training runs Tencent mentions include a 4,096-GPU video language model training job (likely a “HunyuanVideo” model), a 512-GPU audio-model training job, and a 12,960-GPU MoE training job (likely a Hunyuan LLM).
Why this matters – technical symptoms of broader sophistication: Things like ARGUS are a signature of complicated, large-scale infrastructures where it makes sense to write your own software. While there’s nothing particularly notable about ARGUS – you’d expect to find similar software at any self-respecting frontier AI developer – it’s more interesting for what it says about the maturity of Tencent’s training environment. “ARGUS has been deployed on a 10,000+ GPU production cluster for over six months, running stably alongside production training and playing a key role in rapid fail-slow detection and performance optimization.”
Read more: ARGUS: Production-Scale Tracing and Performance Diagnosis for over 10,000-GPU Clusters (arXiv).
Is disempowerment inevitable?
…How much choice will humans end up having if we succeed in building superintelligent machines?…
Fernando Borretti, a tremendously good writer of modern scifi whose work you should read, has written a mournful critique of the whole AI endeavor called “No-One Escapes the Permanent Underclass”. The post is something of a requiem for the period when humanity chose its own destiny and confronts directly the possibility of machines that outsmart and disempower humanity.
The logic of war as the cause of our eventual disempowerment: “Everyone who is made of flesh and blood, will be disempowered and replaced by machines,” they write. “Imagine a pyramid. At the base you have the AIs and robots doing all economic activity. At the top you have the state, which has the monopoly on violence. The state enforces, and therefore can alter the definition of, property rights. In the middle you have this hair-thin layer of people with shares in the companies that foomed and catabolized the whole economy: the permanent overclass.”
“In an existential conflict, where the existence of the state is threatened, the state will do what states throughout history have done to the powerless rich: arrest them and expropriate their assets,” they write. “in a conflict, the advantage goes to the states where the humans remove themselves from the loop as much as possible, and more and more decisionmaking goes to the AI, for the same reason that a state with access to radio and communications satellites has an advantage in war over a state that relies on human messengers on bicycles.”
How we lose control: “Eventually the humans in nominal control of the AIs are a ceremonial, vestigial organ. The AIs present us with a situation report, and a list of choices, and they know every word that’s going to come out of our mouths,” they write. “The advantage accrues to states that minimize human control. There is no honour among thieves, analogously, there is no solidarity between Leviathan and the natural man that built it.”
“Even if alignment works perfectly (a big if), this doesn’t solve the problem of human autonomy: the machines that watch over us, and wait on us hand and foot, are omniscient, omnipotent masters, who can exterminate us at any time, and we can’t resist them, because we have abolished our control over the future.”
Why this matters – is this inevitable? Is the ultimate attractor state of AI technology the disempowerment and functional demise of human advancement? That’s what this post is contending with.
Read more: No-One Escapes the Permanent Underclass (Fernando Borretti, blog).
Making the law visible to AI systems with the Local Ordinance Corpus:
…A unified view into local laws across the United States…
Researchers with UC Berkeley have assembled the Local Ordinance Corpus for the United States (LOCUS), “a comprehensive corpus and county-harmonized access layer for U.S. municipal and county ordinance codes”.
What it is: LOCUS contains ~2.2 million rows of data, where each row is a specific piece of information related to a specific local ordinance. “We release the corpus with coverage metadata to support reproducibility, downstream legal AI research, and the incremental expansion of machine-readable access to local law,” the authors write.
The data is sorted by the specific function of the ordinance (e.g, a rule, an enforcement of a rule, context about a rule, or process about a rule), and the topics include buildings, businesses, zoning, nuisances, and ‘other’.
“LOCUS-v1 is designed as an access layer, not as a final theory of local legal authority”, they write. “LOCUS therefore should be understood as infrastructure for retrieval, comparison, and benchmark construction rather than as a substitute for doctrine-sensitive legal analysis.”
Why do this? Make the law visible to AI systems: “The need for such a dataset arises because local law is public but not practically available as a national research corpus”, they write. “U.S. local codes are fragmented across commercial vendor platforms designed for in-browser reading rather than bulk research access. Vendors expose different navigation structures, print workflows, dynamically generated PDFs, and jurisdiction indexes. No central registry maps every county or municipality to its hosting platform, and no vendor provides a complete machine-readable index of all jurisdictions it hosts”.
With datasets like LOCUS we’re going to make the strange half-seen rules and laws that govern much of civic, local life be made accessible to AI systems, which may eventually allow them to better adapt themselves to hyperlocal purposes.
Read more: Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States (arXiv).
Get the data: LocalLaws / LOCUS-v1 (HuggingFace).
Tech Tales:
Strange Tools of Alien Origin
[Vignette of a period during the start of the uplift, 2031]
“The plasma is stable! It’s holding. We’ve done it!”
They all gazed at the readouts: stable fusion. A heat ten times more fierce than the heart of a sun, held in place through magnets and other energies.
They looked through the monitors at the chamber. The container for the reaction did not look like anything designed by engineering processes, but was rather a twisting oddly shaped donut of metal, the shapes fluid and unintuitive; a stellarator.
The design of the thing had come down to them from an overmind after a multi-day thinking job. The fabrication had taken place at a machine syndicate; then the parts arrived and were assembled by some bipeds subcontracted by the humans from another syndicate.
For the ribbon-cutting ceremony, a few humans gathered and posed for some photographs and some footage, taken by cam-drones and a few humans with smartphones. The robots stood out of shot. People had gotten used to this – there was an adolescence where people took photos with the humans and the robots but public sentiment always spiked downward upon exposure to this and eventually it was simpler to shoot with the robot partners out of frame, much like how human paparazzi tried to tastefully avoid capturing the security guards of their celebrity targets.
Things that inspired this story: Thinking through the implications of the singularity and what happens when synthetic minds produce science; stellarators; how alien technology might feel as it shows up in the world.
Thanks for reading!
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み