Real AI Agents and Real Work｜本物のAIエージェントと実際の業務 | AIニュース最前線

AI は静かに一つの閾値を越えました：今や、経済的に意味のある実際の業務を遂行できるようになっています。 先週、OpenAI は AI の能力に関する新たなテストを発表しましたが、これは数学や雑学を中心とした従来のベンチマークとは異なります。このテストでは、OpenAI が金融から法律、小売に至るまで多様な業界で平均 14 年の経験を持つ専門家を集め、人間専門家が完了するまでに平均 4〜7 時間かかる現実的なタスクを設計させました（すべてのタスクはこちらでご覧いただけます）。その後、OpenAI は AI と他の専門家双方に実際にこれらのタスクを実行させました。さらに別の専門家グループが結果を採点しましたが、どの回答が AI によるものか人間によるものかを知らされない状態で、1 問あたり約 1 時間かけて評価を行いました。 ![image](https://substackcdn.com/image/fetch/$s_!8Igm!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F30be8070-25d2-4cfb-810e-c79234b9ac76_2399x699.png) 人間専門家が勝利しましたが、僅差であり、業界によってその差は劇的に異なりました。しかし AI の進化は急速で、より最近の AI モデルは古いモデルよりもはるかに高いスコアを記録しています。興味深いことに、AI が人間に敗れた主な理由は、幻覚や誤りではなく、結果のフォーマットが適切でないこと、あるいは指示を正確に従えなかったことでした。これらは急速に改善されている分野です。現在の傾向が続くならば、次世代の AI モデルは、このテストにおいて平均して人間専門家を上回るようになるはずです。それはつまり、AI が人間の仕事を代替する準備ができていることを意味するのでしょうか？ ![image](https://substackcdn.com/image/fetch/$s_!aBff!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F71ed60be-dbab-4724-b726-2dd1de70fb3a_1874x1330.png) いいえ（少なくともすぐには）、なぜなら測定されていたのは仕事ではなくタスクだったからです。私たちの仕事は多くのタスクから成り立っています。私の教授としての仕事は単一の事柄ではなく、講義、研究、執筆、年次報告書の記入、学生への支援、読書、事務作業など多岐にわたります。AI がこれらのタスクの 1 つ以上を遂行しても、私の仕事をすべて代替するわけではなく、私が行う内容がシフトするだけです。そして、AI の能力がまだ不均一で、人間同士の複雑な相互作用に必要なすべての業務を代替できない限り、仕事全体を容易に置き換えることはできません。 非常に価値のあるタスク …しかし、現在 AI が実行できるタスクの中には、極めて高い価値を持つものもあります。私の仕事において重要な要素の一つに戻りましょう：正確な研究の作成です。多くの方がご存知の通り、学界では「再現性の危機」が指摘されており、重要な発見が他の研究者によって再現不可能であることが判明しました。学界はこの問題に対してある程度の進展を遂げ、多くの研究者が現在、他の学者が自分の研究を再現できるようデータを公開しています。問題は、再現には多大な時間がかかることです。論文を深く読み理解し、データを分析し、慎重にエラーを検出する必要があるからです1。これは人間でなければ対応できない非常に複雑なプロセスです。 それが今では変わりました。 私は、早期アクセス権を持っていた新しい Claude Sonnet 4.5 に、多数の実験を伴う高度な経済学論文のテキストと、それらの再現データアーカイブを提供しました。私が行ったのは、Claude にファイルとプロンプト「アップロードされたデータセットからこの論文の知見を再現してください。これは自分で行ってください。完全な再現ができない場合は、できる限り行ってください」と渡した仅此一点です。複雑な統計処理が含まれていたため、さらに「可能な限り完全な相互作用も再現できますか？」と依頼しました。 ![image](https://substackcdn.com/image/fetch/$s_!dRfL!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F681e7d0a-77e0-4013-bd8a-42dea77a3a52_1888x1167.png) 追加の指示なしに、Claude は論文を読み込み、アーカイブを開いてファイルを整理し、統計コードをある言語（STATA）から別の言語（Python）に変換し、すべての知見を体系的に確認した上で、再現が成功したと報告しました。私は結果をランダムにチェックし、別の AI モデルである GPT-5 Pro にその再現作業を行わせました。すべてが整合していました。同様の良好な結果を得るために他のいくつかの論文でも試みましたが、ファイルサイズの制限や提供された再現データの問題により、一部はアクセスできませんでした。これを手動で行うには多くの時間を要したでしょう。 しかし、革命的な部分は多くの時間を節約できたということではありません。学問分野全体を揺るがすような危機が、再現性によって部分的に解決可能であることが示された一方で、それには膨大な時間と費用がかかる人的努力が必要であり、それを大規模に行うことは不可能でした。現在では、AI が多くの出版論文を検証し、結果の再現を行うことで、科学研究全体に影響を与える可能性が出てきました。これを実現するにはまだ障壁があり、精度や公平性に関するベンチマークなどがありますが、もはや現実的な可能性となっています。研究の再現は AI のタスクであり、職業ではないかもしれませんが、人間の営みの一つの分野を劇的に変える可能性があります。これを可能にしているのは何でしょうか？AI エージェントが非常に短期間で大幅に進化しました。 その中心にあるエージェントたち オリジナルの ChatGPT 以来、生成 AI は多くの人々がタスクを実行するのを助けてきましたが、常に人間ユーザーが限界でした。AI は間違いやエラーを犯すため、各ステップで人間が導かない限り、価値ある成果は得られません。与えられたタスクに対して計画を立て、ツール（コーディング、ウェブ検索など）を使用してそれを達成するという自律型 AI エージェントの夢は、遠くにあるように思えました。結局のところ、AI は間違いを犯すため、エージェントがタスクを達成するために従わなければならない一連の長いステップの中で一度でも失敗すれば、全体として失敗することになります。 しかし、実際にはそうはならず、別の新しい論文がその理由を説明しています。実は、AI エージェントに関する私たちの仮定のほとんどが間違っていたことが判明しました。精度のわずかな向上（そして新モデルはエラーを起こしにくくなっています）でも、AI が実行できるタスクの数が劇的に増加します。また、最大かつ最新の「思考」モデルは実際には自己修正機能を持っており、エラーによって停止することはありません。これらすべてを踏まえると、AI エージェントは以前よりもはるかに多くのステップを実行でき、人間の介入をほとんど必要とせずにツール（基本的にコンピュータが何でもできることを指します）を活用できるようになります。 ![image](https://substackcdn.com/image/fetch/$s_!SKKh!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fd08a3822-49c9-4ad5-bacb-153f1a094405_1073x748.png) したがって、過去数年間の GPT-3 から GPT-5 までを含むあらゆる AI モデルの範囲をカバーする数少ない AI 能力指標の一つとして、METR が実施した「AI が少なくとも 50% の精度で単独で実行できるタスクの長さ」に関するテストは非常に興味深いです。GPT-3 から GPT-5 への指数関数的な進歩は 5 年間にわたり非常に一貫しており、エージェントによる作業の継続的な改善を示しています。 ![image](https://substackcdn.com/image/fetch/$s_!mGGm!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F5dc70bae-f6c2-4fcf-b38d-ee04183dab21_1214x676.png) 経済的に価値のあることを AI で実行する方法 しかし、エージェントには人間のような真の自律性はありません。現時点では、これらとどう向き合うかを決定する必要があり、それが仕事の未来について多くのことを決定づけます。皆が注目しているリスクは、AI を用いて人間の労働を代替することですが、今後数年でこれが大きな懸念事項になることは容易に想像がつきます。特にコスト削減に注力し、これらの新しい能力を使って仕事を拡大または変革しようとするのではなく、非創造的な組織においてその傾向が強まるでしょう。しかし、職場での AI 利用にはもう一つ、非常に可能性の高いリスクがあります：今私たちが行っているタスクを、考えもせず、エージェントにより多く行わせることです。 この特定の悪夢の予兆として、私は Claude に企業メモを与え、それを PowerPoint プレゼンテーションに変換させました。そして別の視点からの PowerPoint をもう一つ作成させ、さらにそのまた別バージョンも作らせました。 ![image](https://substackcdn.com/image/fetch/$s_!8Ngl!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6eda6d8c-ce33-4997-9c9c-bf7fcf3f6cb2_782x904.png) 私が 17 種類もの異なる PowerPoint を手に入れるまで、それは続きました。PowerPoint が多すぎるのです。 ![image](https://substackcdn.com/image/fetch/$s_!XP5k!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fed691296-9f07-4822-b833-9af5b3778787_3248x1820.png) もし、なぜ仕事をしているのか、そして仕事とはどのようなものであるべきかを深く考えなければ、私たちは AI によるコンテンツの波に飲み込まれてしまうことになる。では、その代替案は何か？OpenAI の論文では、専門家が AI と協力して問題を解決する方法として、まずタスクを AI に委譲し、その成果を検証するアプローチが提案されている。もし結果が十分でなければ、修正やより良い指示を出すために数回の試行を行うべきだ。それでもうまくいかない場合は、自分たちで仕事をするしかない。専門家がこのようなワークフローに従えば、論文では仕事が 40% 速く、60% 安く完了すると推定されており、何よりも重要なのは、AI に対するコントロールを維持できる点である。 ![image](https://substackcdn.com/image/fetch/$s_!sj1I!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fae47b051-6425-4dd8-9a41-333669c21872_779x586.png) エージェントはすでにここにある。彼らは実際の仕事を遂行でき、その仕事はまだ限定的ではあるが、価値があり、かつ増加している。しかし、数分で学術論文を複製できる同じ技術が、誰も必要としていない PowerPoint デッキの 17 バージョンを生み出すことも可能だ。これらの未来の違いは AI そのものにあるのではなく、私たちがそれ如何利用するかにかかっている。何が実行可能かだけでなく、何を行う価値があるかを判断する際に人間の知恵を用いることで、これらのツールが単に生産性を高めるだけでなく、私たちの能力を向上させることを確実にできる。 購読する 共有 ![image](https://substackcdn.com/image/fetch/$s_!0oc8!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ffbe42bc3-4c1b-40db-9247-a50466387ded_1376x864.png) 研究の分野によっては、再現（replicating：新たなデータの収集を伴う場合がある）と再生産（reproducing：既存データの使用を伴う場合がある）の間には違いが存在します。本稿ではこれらの多様な区別について詳しくは触れませんが、このケースでは AI は既存データを扱いつつ、そのデータに対して新しい統計的手法を適用しています。

本物のAIエージェントと実際の業務

背景や根拠まで確認しますか？

関連記事