AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
One Useful Thing·2025年9月30日 03:52·約10分で読める

本物のAIエージェントと実際の業務

#AI Agents#Reasoning#Instruction Following#OpenAI
TL;DR

OpenAI が実施した専門家の実務タスク評価において、AI は人間に僅差で敗れたものの、特定の分野での価値が確認され、ジョブの代替ではなくタスクのシフトを促す段階にあると分析される。

AI深層分析2026年5月3日 00:05
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

専門的タスクにおけるAIの実力評価

OpenAI は金融・法律・小売などの分野で14年経験を持つ専門家による実務タスク(平均4〜7時間)を設計し、AIと人間が競合させた結果、AIは僅差で敗れたものの、モデルの進化により急速にスコアが向上している。

2

失敗の原因と今後の展望

AI が敗れた主な原因はハルシネーションではなくフォーマットや指示遵守の欠如であり、これらの領域は急速に進化しているため、次世代モデルでは人間を平均して上回る可能性が高い。

3

ジョブ代替ではなくタスクの再定義

現在のAIは特定のタスクで高い能力を発揮するが、複雑な対人関係や多様な業務を含む「仕事(ジョブ)」全体を代替するには至っておらず、人間の役割をシフトさせるものとして位置づけられる。

4

学術界における再現性の課題とAIの活用

研究の再現性危機において、AI は論文の深い理解やデータ分析を通じて時間のかかる検証プロセスを支援する極めて価値のあるタスクを実行可能であり、人間の専門性を補完する役割を果たし始めている。

5

AI エージェントによる学術論文の完全再現

Claude Sonnet 4.5 は、複雑な統計を含む経済学の論文とデータセットを受け取り、言語変換や分析を実行して結果を再現することに成功した。

6

科学界の再現性危機への解決可能性

手作業ではスケーラブルに行えなかった研究の検証を AI が担うことで、学術分野全体における再現性の問題を部分的に解決できる可能性がある。

7

AI エージェントの能力向上と自己修正機能

モデルの精度がわずかに向上するだけで実行可能なタスク数が劇的に増加し、最新の思考型モデルはエラーを自己修正して人間の手を介さずに複雑な作業を完遂できるようになった。

影響分析・編集コメントを表示

影響分析

この記事は、AI が単なる実験室の成果から経済活動に直接貢献できる「エージェント」へと進化しつつある転換点を示しており、業界全体が「ジョブの完全代替」という議論から「タスクの再定義と効率化」へパラダイムシフトする必要性を浮き彫りにしています。特に、フォーマット遵守などの技術的課題が短期間で解決されつつある点は、実装フェーズにおける開発者や企業の戦略見直しを迫る重要な示唆を含んでいます。

編集コメント

「AIが人間の仕事を取るのか」という議論の文脈を、「特定のタスクで人間に匹敵し、業務フロー全体を再設計するツールとなるか」へと昇華させた重要な分析です。技術的な限界(ハルシネーション)ではなく、実務適応性(フォーマット遵守)がボトルネックであったという指摘は、今後の開発優先順位を考える上で極めて示唆に富んでいます。

AI は静かに一つの閾値を越えました:今や、経済的に意味のある実際の業務を遂行できるようになっています。

先週、OpenAI は AI の能力に関する新たなテストを発表しましたが、これは数学や雑学を中心とした従来のベンチマークとは異なります。このテストでは、OpenAI が金融から法律、小売に至るまで多様な業界で平均 14 年の経験を持つ専門家を集め、人間専門家が完了するまでに平均 4〜7 時間かかる現実的なタスクを設計させました(すべてのタスクはこちらでご覧いただけます)。その後、OpenAI は AI と他の専門家双方に実際にこれらのタスクを実行させました。さらに別の専門家グループが結果を採点しましたが、どの回答が AI によるものか人間によるものかを知らされない状態で、1 問あたり約 1 時間かけて評価を行いました。

image
image

人間専門家が勝利しましたが、僅差であり、業界によってその差は劇的に異なりました。しかし AI の進化は急速で、より最近の AI モデルは古いモデルよりもはるかに高いスコアを記録しています。興味深いことに、AI が人間に敗れた主な理由は、幻覚や誤りではなく、結果のフォーマットが適切でないこと、あるいは指示を正確に従えなかったことでした。これらは急速に改善されている分野です。現在の傾向が続くならば、次世代の AI モデルは、このテストにおいて平均して人間専門家を上回るようになるはずです。それはつまり、AI が人間の仕事を代替する準備ができていることを意味するのでしょうか?

image
image

いいえ(少なくともすぐには)、なぜなら測定されていたのは仕事ではなくタスクだったからです。私たちの仕事は多くのタスクから成り立っています。私の教授としての仕事は単一の事柄ではなく、講義、研究、執筆、年次報告書の記入、学生への支援、読書、事務作業など多岐にわたります。AI がこれらのタスクの 1 つ以上を遂行しても、私の仕事をすべて代替するわけではなく、私が行う内容がシフトするだけです。そして、AI の能力がまだ不均一で、人間同士の複雑な相互作用に必要なすべての業務を代替できない限り、仕事全体を容易に置き換えることはできません。

非常に価値のあるタスク

…しかし、現在 AI が実行できるタスクの中には、極めて高い価値を持つものもあります。私の仕事において重要な要素の一つに戻りましょう:正確な研究の作成です。多くの方がご存知の通り、学界では「再現性の危機」が指摘されており、重要な発見が他の研究者によって再現不可能であることが判明しました。学界はこの問題に対してある程度の進展を遂げ、多くの研究者が現在、他の学者が自分の研究を再現できるようデータを公開しています。問題は、再現には多大な時間がかかることです。論文を深く読み理解し、データを分析し、慎重にエラーを検出する必要があるからです1。これは人間でなければ対応できない非常に複雑なプロセスです。

それが今では変わりました。

私は、早期アクセス権を持っていた新しい Claude Sonnet 4.5 に、多数の実験を伴う高度な経済学論文のテキストと、それらの再現データアーカイブを提供しました。私が行ったのは、Claude にファイルとプロンプト「アップロードされたデータセットからこの論文の知見を再現してください。これは自分で行ってください。完全な再現ができない場合は、できる限り行ってください」と渡した仅此一点です。複雑な統計処理が含まれていたため、さらに「可能な限り完全な相互作用も再現できますか?」と依頼しました。

image
image

追加の指示なしに、Claude は論文を読み込み、アーカイブを開いてファイルを整理し、統計コードをある言語(STATA)から別の言語(Python)に変換し、すべての知見を体系的に確認した上で、再現が成功したと報告しました。私は結果をランダムにチェックし、別の AI モデルである GPT-5 Pro にその再現作業を行わせました。すべてが整合していました。同様の良好な結果を得るために他のいくつかの論文でも試みましたが、ファイルサイズの制限や提供された再現データの問題により、一部はアクセスできませんでした。これを手動で行うには多くの時間を要したでしょう。

しかし、革命的な部分は多くの時間を節約できたということではありません。学問分野全体を揺るがすような危機が、再現性によって部分的に解決可能であることが示された一方で、それには膨大な時間と費用がかかる人的努力が必要であり、それを大規模に行うことは不可能でした。現在では、AI が多くの出版論文を検証し、結果の再現を行うことで、科学研究全体に影響を与える可能性が出てきました。これを実現するにはまだ障壁があり、精度や公平性に関するベンチマークなどがありますが、もはや現実的な可能性となっています。研究の再現は AI のタスクであり、職業ではないかもしれませんが、人間の営みの一つの分野を劇的に変える可能性があります。これを可能にしているのは何でしょうか?AI エージェントが非常に短期間で大幅に進化しました。

その中心にあるエージェントたち

オリジナルの ChatGPT 以来、生成 AI は多くの人々がタスクを実行するのを助けてきましたが、常に人間ユーザーが限界でした。AI は間違いやエラーを犯すため、各ステップで人間が導かない限り、価値ある成果は得られません。与えられたタスクに対して計画を立て、ツール(コーディング、ウェブ検索など)を使用してそれを達成するという自律型 AI エージェントの夢は、遠くにあるように思えました。結局のところ、AI は間違いを犯すため、エージェントがタスクを達成するために従わなければならない一連の長いステップの中で一度でも失敗すれば、全体として失敗することになります。

しかし、実際にはそうはならず、別の新しい論文がその理由を説明しています。実は、AI エージェントに関する私たちの仮定のほとんどが間違っていたことが判明しました。精度のわずかな向上(そして新モデルはエラーを起こしにくくなっています)でも、AI が実行できるタスクの数が劇的に増加します。また、最大かつ最新の「思考」モデルは実際には自己修正機能を持っており、エラーによって停止することはありません。これらすべてを踏まえると、AI エージェントは以前よりもはるかに多くのステップを実行でき、人間の介入をほとんど必要とせずにツール(基本的にコンピュータが何でもできることを指します)を活用できるようになります。

image
image

したがって、過去数年間の GPT-3 から GPT-5 までを含むあらゆる AI モデルの範囲をカバーする数少ない AI 能力指標の一つとして、METR が実施した「AI が少なくとも 50% の精度で単独で実行できるタスクの長さ」に関するテストは非常に興味深いです。GPT-3 から GPT-5 への指数関数的な進歩は 5 年間にわたり非常に一貫しており、エージェントによる作業の継続的な改善を示しています。

image
image

経済的に価値のあることを AI で実行する方法

しかし、エージェントには人間のような真の自律性はありません。現時点では、これらとどう向き合うかを決定する必要があり、それが仕事の未来について多くのことを決定づけます。皆が注目しているリスクは、AI を用いて人間の労働を代替することですが、今後数年でこれが大きな懸念事項になることは容易に想像がつきます。特にコスト削減に注力し、これらの新しい能力を使って仕事を拡大または変革しようとするのではなく、非創造的な組織においてその傾向が強まるでしょう。しかし、職場での AI 利用にはもう一つ、非常に可能性の高いリスクがあります:今私たちが行っているタスクを、考えもせず、エージェントにより多く行わせることです。

この特定の悪夢の予兆として、私は Claude に企業メモを与え、それを PowerPoint プレゼンテーションに変換させました。そして別の視点からの PowerPoint をもう一つ作成させ、さらにそのまた別バージョンも作らせました。

image
image

私が 17 種類もの異なる PowerPoint を手に入れるまで、それは続きました。PowerPoint が多すぎるのです。

image
image

もし、なぜ仕事をしているのか、そして仕事とはどのようなものであるべきかを深く考えなければ、私たちは AI によるコンテンツの波に飲み込まれてしまうことになる。では、その代替案は何か?OpenAI の論文では、専門家が AI と協力して問題を解決する方法として、まずタスクを AI に委譲し、その成果を検証するアプローチが提案されている。もし結果が十分でなければ、修正やより良い指示を出すために数回の試行を行うべきだ。それでもうまくいかない場合は、自分たちで仕事をするしかない。専門家がこのようなワークフローに従えば、論文では仕事が 40% 速く、60% 安く完了すると推定されており、何よりも重要なのは、AI に対するコントロールを維持できる点である。

image
image

エージェントはすでにここにある。彼らは実際の仕事を遂行でき、その仕事はまだ限定的ではあるが、価値があり、かつ増加している。しかし、数分で学術論文を複製できる同じ技術が、誰も必要としていない PowerPoint デッキの 17 バージョンを生み出すことも可能だ。これらの未来の違いは AI そのものにあるのではなく、私たちがそれ如何利用するかにかかっている。何が実行可能かだけでなく、何を行う価値があるかを判断する際に人間の知恵を用いることで、これらのツールが単に生産性を高めるだけでなく、私たちの能力を向上させることを確実にできる。

購読する

共有

image
image

研究の分野によっては、再現(replicating:新たなデータの収集を伴う場合がある)と再生産(reproducing:既存データの使用を伴う場合がある)の間には違いが存在します。本稿ではこれらの多様な区別について詳しくは触れませんが、このケースでは AI は既存データを扱いつつ、そのデータに対して新しい統計的手法を適用しています。

原文を表示

AIs have quietly crossed a threshold: they can now perform real, economically relevant work.

Last week, OpenAI released a new test of AI ability, but this one differs from the usual benchmarks built around math or trivia. For this test, OpenAI gathered experts with an average of 14 years of experience in industries ranging from finance to law to retail and had them design realistic tasks that would take human experts an average of four to seven hours to complete (you can see all the tasks here). OpenAI then had both AI and other experts do the tasks themselves. A third group of experts graded the results, not knowing which answers came from the AI and which from the human, a process which took about an hour per question.

image
image

Human experts won, but barely, and the margins varied dramatically by industry. Yet AI is improving fast, with more recent AI models scoring much higher than older ones. Interestingly, the major reason for AI losing to humans was not hallucinations and errors, but a failure to format results well or follow instructions exactly — areas of rapid improvement. If the current patterns hold, the next generation of AI models should beat human experts on average in this test. Does that mean AI is ready to replace human jobs?

image
image

No (at least not soon), because what was being measured was not jobs but tasks. Our jobs consist of many tasks. My job as a professor is not just one thing, it involves teaching, researching, writing, filling out annual reports, supporting my students, reading, administrative work and more. AI doing one or more of these tasks does not replace my entire job, it shifts what I do. And as long as AI is jagged in its abilities, and cannot substitute for all the complex work of human interaction, it cannot easily replace jobs as a whole…

A Very Valuable Task

…and yet some of the tasks that AI can do right now have incredible value. Let’s return to something that is critical in my job: producing accurate research. As many people know, there has been a “replication crisis” in academia where important findings turned out to be impossible for other researchers to reproduce. Academia has made some progress on this problem, and many researchers now provide their data so that other scholars can reproduce their work. The problem is that replication takes a lot of time, as you have to deeply read and understand the paper, analyze the data, and painstakingly check for errors1. It’s a very complicated process that only humans could do.

Until now.

I gave the new Claude Sonnet 4.5 (to which I had early access) the text of a sophisticated economics paper involving a number of experiments, along with the archive of all of their replication data. I did not do anything other than give Claude the files and the prompts “replicate the findings in this paper from the dataset they uploaded. you need to do this yourself. if you can’t attempt a full replication, do what you can” and, because it involved complex statistics, I asked it to go further: “can you also replicate the full interactions as much as possible?”

image
image

Without further instruction, Claude read the paper, opened up the archive and sorted through the files, converted the statistical code from one language (STATA) to another (Python), and methodically went through all the findings before reporting a successful reproduction. I spot checked the results and had another AI model, GPT-5 Pro, reproduce the reproduction. It all checked out. I tried this on several other papers with similarly good results, though some were inaccessible due to file size limitations or issues with the replication data provided. Doing this manually would have taken many hours.

But the revolutionary part is not that I saved a lot of time. It is that a crisis that has shaken entire academic fields could be partially resolved with reproduction, but doing so required painstaking and expensive human effort that was impossible to do at scale. Now it appears that AI could check many published papers, reproducing results, with implications for all of scientific research. There are still barriers to doing this, including benchmarking for accuracy and fairness, but it is now a real possibility. Reproducing research may be an AI task, not a job, but it is also might change an entire field of human endeavor dramatically. What makes this possible? AI agents have gotten much better, very quickly.

Agents at the heart of it all

Generative AI has helped a lot of people do tasks since the original ChatGPT, but the limit was always a human user. AI makes mistakes and errors, so, without a human guiding it on each step, nothing valuable could be accomplished. The dream of autonomous AI agents, which, when given a task, can plan and use tools (coding, web search) to accomplish it, seemed far away. After all, AI makes mistakes, so one failure in the long chain of steps that an agent has to follow to accomplish a task would result in a failure overall.

However, that isn’t how things worked out, and another new paper explains why. It turns out most of our assumptions about AI agents were wrong. Even small increases in accuracy (and new models are much less prone to errors) leads to huge increases in the number of tasks an AI can do. And the biggest and latest “thinking” models are actually self-correcting, so they don’t get stopped by errors. All of this means that AI agents can accomplish far more steps than they could before and can use tools (which basically include anything your computer can do) without substantial human intervention.

image
image

So, it is interesting that one of the few measures of AI ability that covers the full range of AI models in the past few years, from GPT-3 to GPT-5, is METR’s test of the length of tasks that AI can accomplish alone with at least 50% accuracy. The exponential gains from GPT-3 to GPT-5 are very consistent over five years, showing the ongoing improvement in agentic work.

image
image

How to use AI to do economically valuable things

Agents, however, don’t have true agency in the human sense. For now, we need to decide what to do with them, and that will determine a lot about the future of work. The risk everyone focuses on is using AI to replace human labor, and it is not hard to see this becoming a major concern in the coming years, especially for unimaginative organizations that focus on cost-cutting, rather than using these new capabilities to expand or transform work. But there is a second, very likely, risk about using AI at work: using agents to do more of the tasks we do now, unthinkingly.

As a preview of this particular nightmare, I gave Claude a corporate memo and asked it to turn it into a PowerPoint. And then another PowerPoint from a different perspective. And another one.

image
image

Until I got 17 different PowerPoints. That is too many PowerPoints.

image
image

If we don’t think hard about WHY we are doing work, and what work should look like, we are all going to drown in a wave of AI content. What is the alternative? The OpenAI paper suggested that experts can work with AI to solve problems by delegating tasks to an AI as a first pass and reviewing the work. If it isn’t good enough, they should try a couple of attempts to give corrections or better instructions. If that doesn’t work, they should just do the work themselves. If experts followed this workflow, the paper estimates they would get work done forty percent faster and sixty percent cheaper, and, even more importantly, retain control over the AI.

image
image

Agents are here. They can do real work, and while that work is still limited, it is valuable and increasing. But the same technology that can replicate academic papers in minutes can also generate 17 versions of a PowerPoint deck that nobody needs. The difference between these futures isn’t in the AI, it’s in how we choose to use it. By using our judgement in deciding what’s worth doing, not just what can be done, we can ensure these tools make us more capable, not just more productive.

Subscribe now

Share

image
image

1Depending on the field of research, there can be differences between replicating (which can involve collecting new data) and reproducing (which can involve using existing data) research. I don’t go into the various distinctions in this post, but in this case, the AI is working with existing data, but also applying new statistical approaches to that data.

この記事をシェア

関連記事

Ars Technica AI★42026年6月8日 22:51

"チャットは死んだ": OpenAI、ChatGPT の大規模刷新を準備

OpenAI は今年の上場を見据え、コーディングツールや AI エージェントを組み合わせた「スーパーアプリ」への転換を図り、収益源の拡大を目指している。

NVIDIA Developer Blog★42026年6月4日 22:02

NVIDIA Nemotron 3 Ultra が長時間実行型エージェントの推論を高速化・効率化

NVIDIA は、長時間実行型エージェントが推論を行い、文脈を維持し、ツールを活用して効率的に動作するための新モデル「Nemotron 3 Ultra」を発表した。これにより、単発チャットボットから複雑なタスクをこなすエージェントへの進化が加速する。

The Verge AI★42026年6月3日 23:04

マイクロソフトと OpenAI の決裂後、両社は激しく対立する準備を整えた

マイクロソフトは年次カンファレンスで、自社開発の推論モデルやセキュリティツールなど新たな AI 施策を発表し、OpenAI との決裂後に業界を主導する姿勢を示した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む