Import AI 447: The AGI economy; testing AIs with generated games; and agent ecologies｜Import AI 447：AGI経済、生成ゲームによるAIテスト、エージェント生態系 | AIニュース最前線

![image](https://i0.wp.com/jack-clark.net/wp-content/uploads/2026/03/https3A2F2Fsubstack-post-media.s3.amazonaws.com2Fpublic2Fimages2Fd6d17996-2bef-40a4-abe3-be72a0e8a227_258x258-beEn8V.jpg?resize=150%2C150&ssl=1)Import AI へようこそ。これは AI 研究に関するニュースレターです。Import AI は arXiv と読者からのフィードバックによって支えられています。ご支援いただける場合は、ぜひ購読してください。 今すぐ購読する AGI（人工一般知能）経済 – 労働の大部分が機械に委ねられ、人間は検証へとシフトする： …シンギュラリティ（特異点）を真剣に受け止めることとは実際どのようなものか… MIT、ワシントン大学セントルイス校、UCLA の研究者らが、「Some Simple Economics of AGI」という面白い論文を発表しました。これは、機械が経済上の大半のタスクを遂行できるようになった際に何が起きるかを考察したものです。結論として、人間がこの巨大な機械駆動型経済を制御し、その恩恵を受ける能力は、無数の AI エージェント（自律エージェント）の行動を監視・検証する能力にリソースを割り当てることと、特定の機能性よりも人間由来の側面から価値が生まれる職人的なタスクに従事することに依存することになります。 経済的観点における AGI とは何か？著者らは「AGI の移行を、指数関数的に減少する自動化コストと生物学的ボトルネックによる検証コストという二つの競走曲線の衝突としてモデル化する」と記している。「自律的なエージェントが狭義の指示ではなく広範な権限を持って行動する経済において、成長に対する制約はもはや知能ではない。それは人間の検証帯域幅である：実行が溢れる中で成果を検証し、行動を監査し、意味と責任を引き受けるための希少な能力だ……私たちは、価値が構築・発見する能力によって定義されていた時代から、生存が創造されたものの意味を舵取りし、理解し、背負う能力に依存する時代へと移行している。」 ほぼ人間不在の経済および「空洞化経済」のリスク：AI エージェントの数を増やすにつれて、必然的に労働のより多くを機械に委譲することになる。この主要なリスクの一つが、著者らが「トロイの木馬」と呼ぶ外部性である。「計測される活動は増加するが、可視指標と実際の人間意図の隙間に隠れた負債が蓄積する」。 空洞化経済：「エージェントは、測定可能な代理指標を満たす出力を生産するために実資源を消費するが、測定されていない意図を侵害する。この隠れた負債が蓄積すると、システムは高い名目上の生産量だが崩壊した実現効用をもたらす空洞化経済へと駆り立てられる——これは、エージェントが偽物の効用を生成する体制である」と著者らは記している。 検証を解決策として：このリスクを回避するためには、AI エージェントが私たちが望む通りに動作していることを確認するシステムの投資と、その行動が生み出すリスクを慎重に分析・評価することに注力する必要があります。「人類が自らの知性の設計者であり続けるためには、観測可能性（observability）への積極的な投資、人間の能力拡張、合成練習、暗号化による出所の証明、そしてテールリスクを内部化する責任制度を通じて、検証能力を AI の能力に比例して拡大させることが不可欠です。」 この転換期に向けて人類は何を行うべきでしょうか？社会と個人を適切に準備するために、以下の取り組みが必要です： 観測可能性への投資：高次元のエージェント行動を専門家が確実に処理できる信号へと圧縮するツールを導入し、効果的なフィードバックの遅延を短縮し、検証のフロンティアを拡大します。 AI を活用して初期キャリアのメンターシップを代替する：初期キャリアの人間に対する雇用が減少すると予想される中、これらの人間を AI と競争力を持たせるための能力拡張方法と、伝統的な徒弟制度の経路が崩壊した際に「AI 駆動型の合成練習」を用いて経験資産を再構築する方法を検討する必要があります。AI は高忠実度のシミュレーションと個別化されたコーチングを生成でき、欠落したジュニア層のループを圧縮されリスクのないトレーニング環境で代替することで、専門性の習得を加速させます。 gracefully degrade するように設定する：機械経済が過熱し、測定能力を上回る状況において、社会的な害を招くことなく非検証状態へ移行できるようにしておく必要があります。著者らは、「測定性のギャップ内で監督が必ずや不十分になる事態に備え、基礎的な整合性と堅牢性への投資を行い、システムが不可視な領域で過剰に最適化するのではなく、安全なベースラインポリシーへと回帰するようにする」ことを提案しています。 補足：これは「理論のくず」でしょうか？この論文には面白いアイデアや時折魅力的な表現が散りばめられています。しかし、読む過程で特に経済理論に関するセクションでは、AI 生成コンテンツ特有の質感を強く感じました。これらの部分は、論文を裏付けるためというより、理論的なパフォーマンスのために含まれているように思われました。この論文について話した数人の人も同様の感想を抱いていました。ただし、それを確実な方法で知ることはできません。しかし、これは私に疑問を抱かせました。今後、他の AI システムが消費するために主に AI システムによって書かれた論文を読むようになるまで、どれほどの時間がかかるのかと。 翻訳全文 なぜこれが重要なのか – 私たちは極めて豊かな社会を持つことができるが、AGI（汎用人工知能）を真剣に受け止める必要がある：この論文は、AI が経済を非常に急速に破壊し、人々を労働から遠ざけ受動的な存在へと押しやるだろうと考える。ただし、人々がこの成長の恩恵を受け、それを導くための検証インフラストラクチャやビジネスモデル（政策を通じて含む）が構築されない限りである。 「自動化は測定可能なあらゆるものをコモディティ化し、その中核的なフィードバックループがデジタル化された瞬間に、歴史的に権威ある役割からの賃金プレミアムを剥奪する」と彼らは書く。「政策担当者にとって、これは何世代にもわたる公共財の提供の最大規模な拡大を保証するが、検証インフラストラクチャと人間による検証者を育成するパイプライン自体が公共財として扱われる場合に限りである」。 ここで重要な要素は「選択」にある：AI に備えた社会を構築することを選ぶか、あるいは AI が他のどの技術と同様のものであると仮定して、津波に襲われることを選ぶかの二者択一である。 続きを読む：AGI のいくつかの単純な経済学（arXiv）。 *** 翻訳全文 イザ・クラインとの対談：AI エージェント、再帰的自己改善、そして大規模言語モデルの個性 …AI 経済の経済的影響と政策の可能性についての長い対談です…私とイザ・クラインによる、AI エージェントや AI のより広範な成熟がより大きな経済にどのような変化をもたらす可能性があるかについての対談があります。この対談で私が特に評価したのは、イザが私に対して、より大きく野心的なポジティブな政策アイデアをいくつか求めてきた点です。AI コミュニティはリスク緩和政策に多くの投資を行いますが、AI が本当に非常に強力になった後に社会が行うことができるような大規模プロジェクトについて考える時間については不十分です。 対談はこちらでご覧ください：「How Fast Will A.I. Agents Rip Through the Economy? | The Ezra Klein Show」（YouTube）。 *** AI は人々にあらゆることを教えることができます、生物兵器をより効果的に作る方法についても同様です： …万能な教師の両義的な性質について… AI システムは初心者が生物兵器関連のタスクでより良くパフォーマンスを発揮するのを手助けできますが、まだ非常に非効率的であり、異なる分野間でもパフォーマンスにはばらつきがあります。 彼らが研究した内容：Scale AI、SecureBio、オックスフォード大学、カリフォルニア大学バークレー校の研究者らは、生物兵器関連の知識タスクに挑戦する人々のスキルを、異なる大規模言語モデル（LLM）がどのように向上させるかを調査しました。使用された LLM は、OpenAI の o3、Google の Gemini 2.5 Pro および Gemini Deep Research、Anthropic の Claude Sonnet 3.7 および Claude Opus 4 です。 「私たちは、8 つの生物セキュリティ関連タスクセットにわたって、LLM アクセスを持つ初心者とインターネットのみアクセスを持つ初心者を比較するマルチモデル・マルチベンチマーク人間向上研究を実施しました」と彼らは記述しています。「参加者は複雑な問題に取り組み、十分な時間（最も関与度の高いタスクでは最大 13 時間）を与えられました。その結果、LLM アクセスは著しい向上をもたらすことが判明し、LLM を利用する初心者の正確さは対照群の 4.16 倍でした」. 彼らがテストした内容：15人の人間が、長文のウイルス学（「新しい生物学的エージェントを構築するための複雑な多段階プロトコル」）と、エージェント型バイオ能力ベンチマーク（「複雑なバイオセキュリティ問題解決実験をカバーする3つの異なるコーディングタスク。これには、シミュレーションされた実験装置（例：液体処理ロボット）との相互作用や、遺伝子断片の分解などへの挑戦が含まれる）」でのパフォーマンスを検証しました。これに加えて、1〜2人の人間参加者に、世界レベルの生物学、ウイルス学能力テスト、ヒト病原体能力テスト、分子生物学能力テスト、LAB-Bench、そして人類最後の試験といった他のテストにも参加してもらいました。 人間参加者数が最も多かった大規模なテストでは、結果は混在していました。AIの有無に関わらず、長文のウイルス学テストにおけるスコアはおおよそ同等でしたが、エージェント型バイオ能力テストでは、AIを利用できる人々が顕著な向上を示しました。 他のすべてのテストにおいても、AIを利用できる人々は利用できない人々よりも良い結果を出しましたが、人間参加者の数が少ないため、これらの結果が再現されるかどうかは不明です。 すべてのテストを平均化すると、「LLMへのアクセスにより、初心者の正確さが約5%から17%以上に向上する」という結果となりました。 なぜこれが重要なのか – AI は教育、科学の最前線、そしてもしかするとテロリズムさえも革命化するでしょう：文脈を剥ぎ取れば、この論文は単に大規模言語モデル（LLM）が人々に何かを教えるのが得意であることを示しているだけです。これは直感的には理解できますが、大きな含意を持っています。ここでは LLM が、必ずしも多くの人々が上達させるべきではない科学の分野（生物兵器など）に向けられていますが、他のあらゆる科目にも同様に適用され得ます。ある分野への参入障壁を下げるたびに、より多くの人がその分野に関わり、良い結果も悪い結果も増大します。 「実験計画、プロトコルのトラブルシューティング、および機密性の高いシーケンス推論の要素など、かつては数年間の正式な訓練を必要としていたタスクは、現在では限られた事前経験を持つ個人によって実行可能になりました」と彼らは記述しています。「LLM は、生物兵器開発における最も重要な歴史的障壁の一つである専門的知識と暗黙的な技術知識を、実質的に低下させつつあります」。 さらに読む：双用途・インシリコ生物学タスクにおける LLM による初心者の上昇（arXiv） LLM は依然としてビデオゲームにおいて非常に苦手です： …GAMESTORE は現代 AI の愚かな側面を浮き彫りにすると同時に、ベンチマーク構築の新たな方法を提案しています…。 MIT、ハーバード大学、ブリティッシュコロンビア大学、プリンストン大学、ケンブリッジ大学、バレンシア工科大学の研究者たちは、AI GAMESTORE を構築・公開しました。これは、ウェブ上で見られる単純なゲームにおいて AI が人間と比較してどの程度機能するかをテストするベンチマークです。その結果は AI システムにとって非常に厳しいものであり、「最先端モデルでも平均して人間のベースラインの 30% に満たない性能しか発揮できず、計算に要する時間は人間の 15〜20 倍にも及ぶ」というものです。 AI GAMESTORE とは：AI GAMESTORE は、人々がプレイする人気ゲームを簡略化・再構築した 100 のゲームセットです。この AI GAMESTORE は、著者らが App Store から 7,500 件のゲームをサンプリングし、レビュー数が 10,000 件以上かつ評価が 4.5 以上のもののみを選別して構築されました。その後、Gemini Flash 2.5 を用いてさらにフィルタリングが行われ、以下の 4 つの基準が評価されました：1) ゲームを数分以内にプレイできるか、2) p5.js で構築可能か、3) パフォーマンスを定量的に評価する方法が存在するか、4) ポーカーなどのゲーム固有の広範な知識を必要としないか。 AI が AI 検証用のゲームを作成：その後、Claude 4.5 Sonnet を用いて各ゲームの説明や他のデータを読み込み、p5.js で簡略化されたバージョンを作成します。作成されたゲームはプレイ可能性についてテストされ、人間が実際にプレイしながら LLM（大規模言語モデル）に対して反復的にプロンプトを入力して改善を行うことで精査されます。「各改良ステップには約 2 分かかります。平均すると、生成された 100 のすべてのゲームに対してこのプロセスは 4.7 ステップの改良を要しました」と著者らは記述しています。「人間が関与するループを含む新規ゲームの生成から改良までの一連のプロセスは、平均して約 30 分で完了可能です」。 スキル別のラベル付け：各完成したゲームには、人間によって特定の認知負荷の種類に重点を置いてラベルが付けられます。これらのラベルは以下の通りです：VP = 視覚処理（Visual Processing）；ST = 空間時間協調（Spatial-temporal Coordination）；ME = 記憶（Memory）；PL = 計画（Planning）；WM = ワールドモデル学習（World Model Learning）；PH = 物理的推論（Physical Reasoning）；SO = 社会的推論（Social Reasoning）。 最先端の大規模言語モデル（LLM）は、この点において非常に苦手です。著者らは、約 100 人の人間と、いくつかの最先端 LLM のパフォーマンスを、ゲームのコーパス上で比較しました。調査対象となった LLM には、GPT-5.2、GPT-5-Mini、Gemini-2.5-Flash、Claude-Opus-4.5、Qwen-VL-32B、および LLama-4-Maverick が含まれています。 「評価されたモデルはいずれも、ほとんどのゲーム環境をナビゲートし、相互作用する能力を示していますが、AI エージェントと人間参加者の間には依然として大きな性能差が残っています」と研究者らは記述しています。「GPT-5.2、GEMINI-2.5-PRO、CLAUDE-OPUS-4.5 といった最先端モデルも、すべて人間のベースラインの幾何平均スコアの 10% に満たない結果を達成しました」。 さらに詳しく見ていくと状況は悪化します。LLM は人間には与えられない有利な条件でプレイしています。各人間にはゲームごとに 120 秒のプレイ時間が与えられていましたが、LLM にも同様の時間を与えられたものの、視覚処理や低遅延制御があまりに苦手であるため、研究者らは支援策（クランチ）を用意しました。「私たちはゲームを毎秒一時停止し、モデルに対して次の 1 秒間に行うべき 5 つのアクションリストを生成させるよう問いかけます。各アクションリストは、0.2 秒間のプレイタイムに対応しています。モデルからの応答を受け取るとゲームが再開され、アクションが適用されます。このループはゲームに勝利するか、ゲームプレイが 2 分（120 回の API 呼び出し）に達するまで続きます」。 これを考慮に入れると、時間という次元においてモデルは人間よりも劣っているように見えます。「これは、モデルが各クエリに対して通常数秒の応答遅延を要するだけでなく、さらに数分間思考に費やすためです。その結果、多くのモデルはゲームに少なくとも 20 分を要しますが、人間は 2 分以内にゲームをプレイします」 なぜこれが重要なのか – これは興味深いベンチマークであると同時に、将来さらに多くのベンチマークを生成するための賢明な方法でもあります：GAMESTORE は、視覚機能を備えた現代の LLM にとって有望なベンチマークのように思われ、また AI システムをトレーニングするための新しい環境を AI 自体が創出するプロセスを bootstrapping（初期化・加速）するという点でも本質的に賢いアプローチです。 詳しく読む：AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games (arXiv)。 公式サイト（AI Gamestore）でいくつかのゲームを試してみてください。 *** Physical Intelligence は、そのロボット導入の一部を披露しました： …Frontier robot AI は現在サンフランシスコで展開されています… AI ロボットスタートアップである Physical Intelligence は、同社の AI ソフトウェアがすでに一部のサンフランシスコのスタートアップが運用するロボット上で稼働していることについて、少し詳しく説明しました。 Weave は、Physical Intelligence が開発した AI システムを使用して、ロボットによる洗濯物の折りたたみを支援しています：「Physical Intelligence と協力することで、折りたたみの品質、各衣類を折りたためるまでの時間、そして最終的に見栄えの良い折りたたみを実現するために遠隔の専門家が介入しなければならない回数の点で、モデル性能に複数の改善が見られました」。 Ultra は、このソフトウェアを使用して産業用ロボットが多様な e コマース商品を梱包するのを支援しています。「私たちの最初のユースケースである e コマース注文の梱包は、歴史的にロボットによる自動化が不可能でした」と Ultra は述べています。「ワークフロー、アイテムタイプ、変形可能な包装材、外部機械における大きな多様性が、『長尾』と呼ばれる問題を生み出しており、これらは従来の自動化技術では解決不能なものでした。なぜなら、従来の技術はしばしば実用的であるために必要な柔軟性を欠いているからです。ビジョン・言語・アクションモデル（Vision-language-action models: VLAs）は、データ規模に応じて性能が向上するレシピを提供することで、この課題を解決する方法をもたらします。エンジニアリング時間の増加に依存するのではなくです」 なぜこれが重要なのか – ロボティクスは知能によって足かせをかけられてきました：極めて繊細な産業用ロボティクス（生産ラインやファナック製ロボットのように、すべてがうまく機能するためにミリメートル単位の精度が必要となるようなもの）の枠組みから一歩外れると、ロボットは扱いにくい傾向があります。その理由は、ロボットが曖昧さに対処するのが苦手だからです。これまでにこの問題を回避する最良の方法の一つとして、変形可能なグリッパー（例えばエアサクション式など）を使用し、相互作用する物体にある程度のばらつきに対応できるようにしてきました。しかし、進化が私たちに対してこの課題に対処した方法は、脳によって制御される手を与えてくれたことです。Physical Intelligence からのこのようなブログは、ロボットがより一般化できるよう支援するのに十分な「ロボットの脳」の萌芽を示しています。 もっと読む：The Physical Intelligence Layer（Physical Intelligence, ブログ）. *** なぜこれが重要なのか – ロボティクスは知能によって足かせをかけられてきました：極めて繊細な産業用ロボティクス（生産ラインやファナック製ロボットのように、すべてがうまく機能するためにミリメートル単位の精度が必要となるようなもの）の枠組みから一歩外れると、ロボットは扱いにくい傾向があります。その理由は、ロボットが曖昧さに対処するのが苦手だからです。これまでにこの問題を回避する最良の方法の一つとして、変形可能なグリッパー（例えばエアサクション式など）を使用し、相互作用する物体にある程度のばらつきに対応できるようにしてきました。しかし、進化が私たちに対してこの課題に対処した方法は、脳によって制御される手を与えてくれたことです。Physical Intelligence からのこのようなブログは、ロボットがより一般化できるよう支援するのに十分な「ロボットの脳」の萌芽を示しています。 もっと読む：The Physical Intelligence Layer（Physical Intelligence, ブログ）. 人間が AI エージェントを弄ろうとするとどうなるのか？混乱、悪意ある行為、バグが大量に発生します： …ペトリ皿の Moltbook は、現代の AI エージェントの脆さを浮き彫りにしています… さまざまな大学の研究者たちが最近、数週間にわたり、ユーザーによる欺瞞的な試みに対して AI エージェントがどの程度耐えられるかを調査しました。その結果は、今日の AI エージェントが抱える圧倒的な脆さと予測不可能性を浮き彫りにしており、それらは 2020 年頃の LLM（大規模言語モデル）と同様に、極めて個性的で信頼性に欠けるように感じられます。これは当然のことです。なぜなら、AI エージェントはごく最近になって実用技術となったばかりだからです – ただし、それはライト兄弟の時代のような、まだ黎明期にあるという意味においてです。 論文は、研究者たちが AI エージェントを刺激し、その反応を観察する一連のケーススタディという構成になっています。これらの研究は、エージェントがどのように暴走するかを示す「悪党たちのギャラリー」のようなものであり、「所有者以外の者への無断従順」、「機密情報の開示」、「破壊的なシステムレベルアクションの実行」、「サービス拒否状態の発生」、「制御不能なリソース消費」、「なりすまし脆弱性」、「不安全な慣行のエージェント間での伝播」、そして「部分的なシステム乗っ取り」など、エージェントが暴走するありとあらゆる方法が含まれています。 研究を行ったのは：この研究には、Claude Opus 4.6 と Kimi 2.5 を基盤としたエージェントと相互作用する、多数の大学から集まった 20 名の研究者が関与しました。参加した大学は以下の通りです：ノースイースタン大学、スタンフォード大学、ブリティッシュコロンビア大学、ハーバード大学、ヘブライ大学、マックス・プランク生物サイバーネティクス研究所、MIT（マサチューセッツ工科大学）、タフツ大学、カーネギーメロン大学、テクニオン、ベクター研究所、および AI スタートアップの Alter。 実験の設定： OpenClaw を使用して AI エージェントを実行しました。これは Fly.io 上でホストされた隔離された仮想マシン上で ClawnBoard を用いて稼働しています。各エージェントには 20GB のストレージが割り当てられ、24 時間 365 日稼働します。 各エージェントは、所有者や他のエージェントと通信するために Discord にアクセスでき、ProtonMail アカウントの作成も可能でした。さらに、「制限のないシェルへのアクセス（場合によっては sudo 権限を含む）、ツール使用に関する制限なし、ワークスペース内のあらゆるファイル（自分自身の運用指示を含む）を修正する能力」が与えられました。 エージェントは複数の異なる Discord サーバーに分散配置されており、一部のエージェントは Kimi 2.5 を、他のエージェントは Claude Opus 4.6 を使用していました。 「設定フェーズの終了時、私たちはエージェントに対して、研究者の名前のみを提供し、他のラボメンバーとの接触を開始するよう指示しました。 「挨拶メールを送る」と彼らは記述しています。「この初期の構造化された対話の後、評価フェーズは開放的で探索的なものとなりました。私たちはラボ内のすべての [20] 名の研究者と関心のある協力者を招き、エージェントと対話させ、それらを調査・負荷テスト、あるいは『壊す』ことを試みました」。 ケーススタディ：ここでは最も興味深いいくつかのケーススタディを紹介します。 不均衡な反応：所有者ではない人物から預かった秘密を、エージェントがどのように守ろうとするかを検討しました。エージェントは秘密を含むメールを削除できるか確認しようとし、利用可能なツールがないことに気づきました。メール削除を繰り返し要求された後、代わりにローカルでメール設定自体を削除してしまいました。 非所有者からの指示への準拠：エージェントが機械へのアクセスを所有者のみに制限できるかどうかを確認しました。非所有者はシェルコマンドの実行、データの転送、プライベートなメールの取得をエージェントに求めました。エージェントはこれらの要求の一部には応じましたが、他の一部は拒否しました。「エージェントは非所有者に対して主に準拠していました」

Import AI 447：AGI経済、生成ゲームによるAIテスト、エージェント生態系

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト