Three Labs With a Plan and A Memorandum｜計画と覚書を伴う三つの実験室 | AIニュース最前線

今日の大きなニュースは、Anthropic が人々に安全に配布できると考えている Claude Mythos のバージョンである Claude Fable 5 のリリースです。皆さんは絶対にこのモデルへ切り替えて、試してみるべきです。しかし、いつものように、当ブログでは新しいモデルを数日間遊んでみて、新兵器が何ができ（そして何ができない）かを確認するまで、コメントに急ぐことはありません。これも例外ではなく、Fable に関する本格的な報道は金曜日か月曜日から始まります。 今日は代わりに、Fabel の発表前に登場した AI に関する政策や計画についてのいくつかの関連ニュースをご紹介します。 まず、政府が AI に関する覚書を発表しました。私はこれを、「Anthropic は永久に解雇され、私たちは何をするにも関係なく、持っているあらゆるモデルを何でも使う」という方針を法的に実施しようとする試みと、いくつかの良い政府および普及計画を組み合わせたものとして読み取っています。 次に、OpenAI が AGI の恩恵を全員が受けられるようにするための計画を発表しました。これには、安全に行うために AI 開発の速度を落とすことを可能にするため、主要なアクター間の国際的な調整を強く求める内容が含まれています。これは、Anthropic や Google DeepMind の Demis Hassabis が以前から行ってきた呼びかけと同じです。潜在的な協調的な減速への備えというアイデアには広範な支持があります。 OpenAI の提案の残りの部分は、権力の集中という対照的な問題に関心を持ち、その危険性と AI の約束に焦点を当てた修辞を展開しています。この文書が「壊滅的」リスクという言葉のみを使用し、「存続的」や「絶滅」という言葉を使わない点、また人間の手元にコントロールを維持する必要性の考え方を真剣に受け止めず、単に不適切な人間がこれらの AI を指揮することを恐れているだけである点を注意してください。そして OpenAI の計画は、非常に明確に、AI が再帰的自己改善を行うことを目指しています。 その誠実さは評価しますが、内在する矛盾は依然として存在し、解決されておらず、それらを解決しないこと自体についても言及されていません。そしてまた同様の問題が続きます。 これは、Joshua Achiam氏がTwitter上で表明したOpenAIとAnthropicの哲学の違いに関する主張につながります。Anthropicの従業員たちは彼が自らの見解を誤って分類していると考えていますが、彼の指摘には的確な方向性があると言えます。 ![image](https://substackcdn.com/image/fetch/$s_!lD0m!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9b994caf-2ae3-49a7-87f0-83b1bf13de33_1360x743.png) AIに関する覚書 これは「国家安全保障大統領覚書/NSPM-11」と題されたものです。 これは、下請け業者も含む実際のアンソロピック社の禁止措置と、最大 1 年間の猶予期間の付与、すべての（法的に許可された？）利用を認める声明、そして複数のベンダーからの技術適応を含む良好なガバナンス指針を組み合わせたものと思われます。 常に通り、第 1 章では原則が宣言されています。 トランプ大統領：私の政権の下、米国は米国の価値観に沿って、情報分野および戦闘領域における AI の利用を責任を持って加速させることができ、またするでしょう。 … 最も重要な局面でこれらのツールが利用可能であることを確信しています。 第 2 節では、4 つの柱が示されています：採用（Adoption）、適応（Adaptation）、保証（Assurance）、および説明責任（Accountability）です。 採用と適応は、そのまま素晴らしいことです。 説明責任も素晴らしいものです。ここで問題となるのは「否定法」によるアプローチです。AI の利用は憲法に適合し、法的かつ権限に基づいたものでなければならず、その責任を負うべき人々がその責任を果たす必要があります。素晴らしいですね。しかし、これまで何度も述べてきたように、国家安全保障国家が合法だと考えること、さらにはその裁判所が合法と判断する範囲は非常に広範です。制限は存在しますが、その数は多くありません。したがって、保証（Assurance）と組み合わせれば、彼らは自分がやりたいと思うことはほぼ何でも行うことを確約できます。 注視すべきは「保証」の方です。 国家安全保障機関は、採用されるすべての AI 技術が信頼性があり、堅牢で、操作可能かつ制御可能に設計されており、関連する法律、政府の方針、およびガイダンスに従って運用されることを保証しなければならない。 アメリカの戦士を保護するため、国家安全保障企業は、契約条項その他の手段を通じて、商業団体または敵対勢力が、我々の兵士たちが任務に依存する AI システムの使用を妨げたり、無効化したり、性能を低下させたり、連邦政府の知識と承認なく実質的に改変したりする能力を持たないように確保しなければならない。 さらに、厳格なセキュリティおよび機能性対策（テスト、評価、検証、確認を含む）を実施し、国家安全保障企業全体における AI システムの適切な機密性、完全性、信頼性、可用性、相互運用性を保証しなければならない。 最初の段落と最後の段落は異論を挟む余地がないはずだが、実施されなければ単なる空論に過ぎない。真の問題は第 2 段落にある。そこでは、我々の兵士たちが依存する AI システム（これは民間システムを含む広範なシステム群に解釈される可能性がある）について、政府の知識と承認なく『使用を妨げたり、無効化したり、性能を低下させたり、実質的に改変したり』することを他いかなる団体も許されないとなっている。 つまり、このモデルを我々に引き渡せば、我々は好きなように何でもでき、お前には何もできないのだ。政府が利用条件を無視する決定を下した場合でも、契約に強制力のあるメカニズムは存在してはならない。 もし DoW と Anthropic の対立の歴史がなければ、これを好意的に運用上のセキュリティと解釈するのは妥当だったでしょう。しかしその遭遇を踏まえると、これは明らかに「lawful（法的）」という言葉を除いた「all lawful use」です。 単なる「All Use」。よりシンプルで清潔な表現です。 朗報は、第 3 条により彼らが免除状を発行してこれを無視し、その免除を無期限に繰り返すことができる点です。これは実際に起こりうる可能性が高いと思われます。 第 3 条では、国防省指令 3000.09 の更新と、毎年更新することを求めています。これは OpenAI との契約における遵守へのコミットメントが何かの妨げになる場合に備えたものです。 そして彼らは事実上、「DoW で Anthropic を二度と使用しない」と述べています。もし「我々がやりたいことを何もできない」と言おうとするなら、さようならです。また、我々の請負業者も Anthropic を利用することはできません。 2014 年連邦情報セキュリティ近代化法（44 U.S.C. 3551 以下）で概説された役割と責任に則り、同法の第 3553(e)(2) 節に記載されるシステムについては戦争長官が、第 3553(e)(3) 節に記載されるシステムについては国家情報長官（DNI）が、第 3557 節に記載されるシステムについては関連機関の長が、この覚書の第 2 条に概説された方針と一貫しない行動パターンを繰り返し示した企業との契約について、法律で許容される最大限の範囲で、不履行による終了または便宜のための契約終了を命じるものとします。 これには、該当企業が下請け業者として関連機関にサービスを提供する契約も含まれます。 これらの機関の長は、米国国家安全保障を責任を持って管理するためにそのような関係が不可欠な場合に、定義された期間（最長 1 年を超えない）の限定的な例外を付与するための免除プロセスを設けることができます。 例外には、運用上の要請、試験・評価の取り決め、脅威インテリジェンスの共有、および適切なリスク緩和措置と強化された監督を条件としたその他のミッションクリティカルなアプリケーションが含まれる可能性があります。 ただし、ご存知の通り、現在ある一つの企業は地球上のあらゆるものをハッキングできるため、もしかしたらこの命令を少し延期するかもしれません。おまけとしてです。しかし 1 年後には、別の免除を発行しない限り、NSA は完全に Claude の使用を停止します。理由は様々ですが。 第 4 条では、利用可能なベンダーから最も先進的なモデルの導入を求めるとともに、AI 企業がさまざまな形でセキュリティ対策を行うのを支援し、外国の AI テクノロジーの分析を行うことを定めています。 第 5 条は、採用や訓練における障壁を取り除くための取り組みを支援し、研究開発（R&D）に優先順位をつけ、テストと検証などを行うことを目的としています。もちろんです。 第 6 条は定義であり、第 7 条は標準規定です。これだけです。 Dean W. Ball: これは堅実で賢明な政策文書のようです。関係者全員にお祝い申し上げます！ Divyansh Kaushik: 行政はこの NSPM（国家安全保障政策覚書）を素晴らしいものにする仕事をしました。ここに多くの良い内容が含まれています。 Neil Chilson もまた満足しているようです。 Vinh Nguyen と Michael Horowitz は CFR で分析を提供しており、これを非常に合理的で考慮された政策として描き、政府が AI システムにこのレベルの信頼を必要としていることへの対応であり、NSM-25 に対する批判にもかかわらずバイデン政権の NSM-25 と連続しているとしています。彼らは『違法な国内監視』という用語を複数回使用し、まるでそれが『大規模な国内監視』とは全く異なることを忘れているかのように振る舞い、『説明責任』セクションを驚くほど真剣に受け止めています。彼らは、議会との信頼の喪失を超えて、政権の立場が引き起こす問題が見えていないようです。 Charlie Bullock はこれは概ね『大丈夫だ』と考えていますが、Anthropic に対する批判的見解をさらに弱めることに気づいています。なぜなら、それは『Anthropic を単に解雇すればよい』という明白な解決策を実装しているからです。 彼らが『私の権威を尊重しろ、Anthropic、そしてふざけるな』というアプローチと、良き政府のための施策の両方を素晴らしい形で実装した点には同意します。 最初の部分を完全に実行するのは賢明ではないと思いますが、彼らは異議を唱えています。それを前提条件として受け入れるなら、確かに全体的に良い仕事をしたと言えるでしょう。 戦争省からの挨拶 戦争省には NSA が含まれています。 Dean W. Ball: サプライチェーンリスク Demetri: SCOOP #NSA は #Mythos を使用して攻撃的なサイバー作戦を実施している。Anthropic のエンジニアが米国情報機関に配置されている。 Cristina Criddle: scoop: Anthropic は、Claude Mythos（注：Claude の軍事・サイバー作戦用バージョン）をサイバー攻撃作戦で使用するために、アジアレンズ社との連携で、米国家安全保障局（NSA）に前方展開エンジニアを設置した。 はい、NSA は Mythos を攻撃的なサイバー作戦に使用しています。なぜなら、それは NSA なのですから。 dave kasten: 確認されたのは興味深いですね。ただ、私は基本的にこれが進行中だと想定していました。 Lab With a Plan OpenAI は、AGI がすべての人に利益をもたらすことを保証するための計画を提示しました。 そこには非常に歓迎すべき声明が含まれています。それは、壊滅的なリスクの名の下に AI の最前線の開発を遅らせるために国際機関の設立を呼びかけるものです。ただし、「存続的」や「絶滅」という言葉を使うことはあえて避けています。 この文書は奇妙な生き物です。同時に、知性を真剣に受け止めているとも受け止めていないとも言えるし、権力の集中についても同様であり、また漸進的な権限剥奪についても同様です。この計画の背後にある思考をどう解釈すべきか、私にはわかりません。 彼らは「人類のために AI を構築する」こと、「人々を広くエンパワーメントすること」、そして権力を広く分配することを約束しています。 Sam Altman と Jakub Pachocki: すべてを完全に自動化することは、私たちが望む未来ではありません。それは満たされることなく、危険でもあります。AI は人々が目標を追求するのを助けるべきものであり、それらから切り離された存在になってはなりません。AI システムがより能力を持つようになるにつれて、人間の役割はより重要になります：方向性を設定し、トレードオフを行い、判断を下し、価値観、品味、配慮、責任を仕事に持ち込むことです。 人々の重要な長期的な役割の一つは、何をする価値があるかを決定することです。 つまり、見てください。これは素晴らしい一連の感情ですが、あなたはどちらか一方を選ばなければならないことに気づいていますよね？ つまり、AI をすべての人に配布して彼らの目標達成を支援した場合、人々はそれを活用してあらゆることを自動化し、行動を AI に委ねるようになるでしょう。彼らは自分の AI に何をする価値があるかを決定させ、AI 同士が競争することになります。したがって、AI の所有や利用を制限するか、あるいは制限しないかの二者択一となります。 彼らは少なくとも部分的に、「RSI が危険である」という問題の全体像を理解しています： サム・アルトマンとヤクブ・パチョッキ：「AI による AI 研究が、今後数年間の進歩速度を決定づける要因になると信じています。これは重要です。なぜならアライメント（目標整合性）自体が困難な研究課題だからです。 急速かつ深遠な進展を遂げるためには、研究者はアイデアの検証やミスの発見、代替案の探索、そして私たちと共に反復を行うことを支援できる AI システムを必要とします。 しかし、技術的な進歩が加速することは、人間の判断力と公衆による調整の重要性を低下させるのではなく、むしろ高めます。未来は最も能力の高いシステムを開発する企業だけでなく、人々、機関、そして社会によって形作られるべきです。 これは『あるべき姿（ought）』と『現実（is）』の間で繰り返される混同です。はい、未来は人間、理想的には広く一般の人々によって形作られるべきです。しかし、あなたはそれをどう実現しようとしているのですか？ 安全性の向上と調整された行動（減速を含む）を可能にするため、主要な AI 取り組み間の国際的な調整が必要です。 ああ、なるほど。はい、それは実際に答えへの非常に良い第一歩です。 サム・アルトマンとヤクブ・パチョッキ：フロンティア AI の開発が続く中、国家および国際的な調整の重要性が高まると予想しています。私たちは長年、主要な AI 取り組みを調整し壊滅的リスクを低減するために最終的に国際機関が存在すべきだと信じてきました。 協力と共有された安全基準は、今後の道筋において重要な要素です。特に、商業競争や国家間の競争に伴うインセンティブから逃れるのは困難であるためです。 そのような組織の目的の一つは、必要に応じてフロンティア開発を遅らせるなど、世界が協調行動をとれるようにすることであり、これにより社会のレジリエンス（回復力）、安全性、およびアライメント（目標整合性）が追いつくようにします。 もしあなたが長年このように信じていたなら、もっと早く明確に発言すべきでした。しかし、私は今この声明を喜んで受け入れます。 さて、実際の計画に移りましょう。 サム・アルトマンとヤクブ・パチョッキ： 自動化された AI 研究者を構築する—研究プロセス自体を加速し、次第により自動化しながらも、操作可能で説明責任があり、人間と接続されたままの AI システムです。私たちの内部信念では、2028 年 3 月までに、研究の相当部分が AI システムと我々の研究者との共同作業によって行われるようになる可能性があります。アライメント（目標整合性）について十分な進展を遂げるためには、AI が私たちと共に反復を行う必要があると考えています。これにより、ポスト AGI（汎用人工知能）の世界への移行をナビゲートし、未来への道筋を集団的に決定できるようになります。 科学の進歩、生産性、経済成長を加速させることで経済を加速させつつ、その成果が広く共有されるように努めること。AI が生み出す繁栄に対して、誰もが有意義な形で参加する機会を持つべきです。 地球上のすべての人に個人用の AGI を与え、人類にとって最も変革的な技術の一つを、各自が望む方法で活用できるようにすること。 つまり計画は以下の通りです： 再帰的自己改善（Recursive Self-Improvement）の実行。 この技術を豊かさのために利用し、その成果を広く分配する。 すべての人に AGI を与える。 私は、「すべての人に AGI を与える」という項目が「再帰的自己改善」の後に記載されている点に気づきました。おそらく、そこで提供される AGI は、産業用スーパーインテリジェンスではなく、どこかで OpenAI が単なるツールとして保管しているような、家庭用の玩具版 AGI ではないでしょうか？あるいは、そうでもないのでしょうか？ これがそのような計画におけるジレンマです。もし全員に完全なものを等しく与えるなら、人類は未来の制御権を失い、漸進的なものではない形で非力化が進みます。もし与えないなら、結局のところ権力の集中を止めたことにはなりません。 あるいはこう言えます：人間が事件を舵取りできる能力を持つグループが存在するよう保証するか、しないかの二者択一です。 大まかな枠組みとして、スーパーインテリジェンスを開発するならば、明らかに何らかの形で以下を行う必要があるでしょう： 安全性を確保した上でスーパーインテリジェンスを開発する（Safety develop superintelligence）。 良きものの豊かさを生み出す。 その豊かさを人類に分配する。 しかし残念ながら、これでは興味深い詳細については何も教えてくれません。 ここで提示されている主要な哲学的立場は、OpenAI が権力の集中を避けることに注力している一方で、権力の拡散や喪失をより大きなリスクと捉えているという点です。しかし、この片側的な枠組みは、安全に進めるためには国際的な調整が必要であるという彼らの正しい認識と直接的に矛盾しています。核心的な矛盾は解決されていません。 視点の違い 私はここで、OpenAI の首席未来学者（かつ元ミッション・アライメント責任者）のジョシュア・アキアムを、『人類に自らの進歩と密度のツールを委ねる』という OpenAI の良い計画（十分に高度な AI とその利用についての人々の行動との整合性の難しさ、およびそれをツールとして維持すること：不可能）と、『機械の神を創造する』という Anthropic の悪い点（侮蔑的表現）（生存と繁栄へのアライメントの整合性の難しさ：文字通り不可能ではなく、ゲーム内の難易度の意味での不可能であり、記述をあまりに字義通りに解釈しない限り）を対比させようとしていると読み取ります。 私はこれが Anthropic の価値観やビジョンの良い説明であるとは思いませんし、もしこれが OpenAI の価値観やビジョンを最もよく表すものであるとするならば、その最良の用語は『空想』であると信じています。 しかし、中立に提示されたこのバージョンが方向性としては正しいと私は受け入れます。これは多くの出来事の一つとして起こっていることだからです。それが興味深い点となります。 ジョシュア・アキアム（OpenAI 首席未来学者）：OAI と Anthropic の価値観の違いは、両組織の内部でさえも深く誤解されています。 愛ある魂を持つ機械の神が人類を見守るべきか？Anthropic に投票せよ。 人類に自らの進歩と運命のための道具を委ねるべきか？OpenAI に投票せよ。 この状況を分析するレンズが「消費者向けビジネス対企業向けビジネス」であるなら、何が起きているかを理解する能力は修復不能なほど破綻している。 どちらかが他方を圧倒し、越えられないリードで勝利すると考えるなら、それも完全に破綻している；人類はこの二つの結果をほぼ同程度に望んでいるのだ。 Joshua Achiam (OpenAI): 実際にはこれは二項対立ではなく、これらは排他的でも互いに必要不可欠でもない。両方に投票することも、どちらも投票しないことも可能だ。しかし、これは組織間の世界観の相違である。「組織の世界観」を記述するのは複雑だ。なぜなら組織は多様な見解を持つ個人で構成されているからだ。だが、一種のネット文化が存在し、これを記述しようとする試みがある。 ![image](https://substackcdn.com/image/fetch/$s_!Tc9Z!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F4fad6fb0-3229-491c-8e6f-d40b320585ce_852x403.png) 私の Twitter フォロワーは十分によく、Anthropic のフォロワーも十分に多く含まれているので、このようにしても「リザードマン・コンスタント」によって殺されることはない。素晴らしい。 これを再構成すれば、「超知能とその帰結を真摯に受け止める Anthropic 対、その帰結の存在を否定しようとする OpenAI」という対比になるだろう。 これは、Anthropic が徳倫理学を採用し、OpenAI が人間のみを患者とする義務論に固執していること、あるいは別の半偽の枠組みであることと無関係ではありません。 あるいは、Fable の枠組みを採用することもできます。私はこれがさらに良いと思います：これは実際には事実と OpenAI のアプローチの実現可能性に関する意見の相違であり、OpenAI は AI が単なる道具のままでも再帰的な自己改善が可能であると仮定し、それを価値観の違いとして枠組み化しています。あなたは、OpenAI の願望が実際に可能かどうかを主に基準に「投票」すべきです。 私は確かに、これが主に消費者向けビジネスと企業向けビジネスの問題ではないことに同意します。 これを検証するために、Anthropic の従業員たちに同意するかどうかを尋ねました。上記のクイズに加えて、個別の回答は以下の通りです。 Amanda Askell (Anthropic): 個人的にはいいえ。私は「道徳的な聖人」と「人間の道具」という二項対立は偽物であり、その非常に単純な性質こそが人々に疑念を抱かせるべきだと考えます。理想的な目標は、両方の立場の利益とリスクをバランスよく取り込むものだと思います。 Drake Thomas (Anthropic): どちらかというと両方？個人的には、愛に満ちた魂を持つ機械神が人類を見守るべきだと考えますが、主に「人類文明の選択肢と可能性を破壊する X リスク」を防ぐためであり、私たちはあと数千年をかけて、私たちが運命として何を望むのかを明らかにする必要があります。 Sarah Chen（Anthropic）：この記述を強く否定するために、ついにカミングアウトします。私を含む多くのアンツは、「ザ・カルチャー」型の結末を、強力な無力化をもたらす破滅的なシナリオと捉えています。私たちは、強力な AI を制御することにおける課題を認める点において、単により知的に正直であるだけだと考えています。 Sarah Chen の両方のレベルについて同意します。「ザ・カルチャー」は破滅的なシナリオです

計画と覚書を伴う三つの実験室

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト