AIエージェント4年史

こんにちは、働く人の1日の価値を100倍にしたい、株式会社Algomaticの高橋と申します!
2026年3月まではグループ会社のAlgomatic WorksにてCOOをしておりまして、4月以降はAlgomaticのAI駆動開発部門(システム変革本部)の立ち上げを行っています。
さて今回は『Algomatic 初夏のアドベントカレンダー』と題して、メンバーそれぞれが好きな技術を好きに語る会の15日目となります👏
前回の記事はこちら👇
2025年頃からある種のバズワードとして普及しはじめた「AIエージェント」という単語。
その厳密な定義については専門的な記事に譲るとして、誤解を恐れずにざっくり言えば、AIエージェントとは
人がいちいち指示を出さなくても、自分でやることを考えて、いろんなツールを使い分けながらタスクをこなしてくれるソフトウェア
です。別名「LLM Agent」「Autonomous AI Agent」。大規模言語モデル(LLM)を頭脳に据えた、自律型のソフトウェアの総称です。
「AIエージェント」という単語が急速に普及したのは2025年以降のことで、最近生まれた新しい概念だと捉えられることも少なくありません。

*「AIエージェント」が日本国内で普及されるようになったのは2025年以降(出典:Google Trends)*
一方で「大規模言語モデルを用いて、自律的に動くソフトウェアを産み出す」というAIエージェントの野心的な取り組みは少なくとも2022年頃には始まっており、そのルーツは「MRKL(AI21 Labs、2022年5月)」と「ReAct(Princeton/Google、2022年10月)」という2つの論文に始まります。
私自身も当時からAIエージェントの動向を追っており、2023年には「AIエージェント Meetup」という(恐らく)日本最古のAIエージェントイベントも開催をしておりました。
(#0と銘打っていますが、#1は今のところ開催されておりません)
この記事では、2022年から現在に至るまでのAIエージェントの長いようで短い歴史を、簡単に振り返ってみたいと思います。
【この記事には何が書いてある?】
- AIエージェントの「誕生前夜」にあった研究たち
- Auto-GPTとBabyAGIが火をつけた、2023年のAIエージェントブーム
- そして本格的な社会実装が進むAIエージェント
1. AIエージェントの「誕生前夜」にあった研究たち
冒頭にも書きましたが、AIエージェントの歴史を遡ってみると、2022年に発表された2つの研究論文にたどり着きます。

1つ目が、MRKL(2022年5月)です。
LLMそのものは、計算も最新情報の参照も苦手です。ならば、LLMを"司令塔"にして、電卓・検索・データベースといった外部モジュールに処理を振り分ければいいという発想です。
「LLMは全部を自分でやらなくてよく、困ったら道具を呼び出せばいい」という、いまのツール利用(ToolUse)の原型です。
2つ目が、ReAct(2022年10月)です。
アイデアはシンプルで「Reasoning(推論)とActing(行動)を交互に繰り返す」というものです。
LLMにThought(考える)→ Action(道具を使う)→ Observation(結果を見る)→ また Thought… という処理を繰り返させるというものでした。
誤解を恐れずにざっくりと言えば、MRKLが「道具を使う」ことを、ReActが「考えてから動く」ことを発明し、その2つが掛け合わさったものが「AIエージェント」だと、私は系譜を捉えています。
2. 2023年のAIエージェントブーム
これらの研究を背景に、2023年に最初のAIエージェントのブームが起こりました。
その火付け役が「AutoGPT」というオープンソースのAIエージェント開発プロジェクトです。
出典:[https://speakerdeck.com/dory/transforming-customer-experience-with-ai-agents](https://cdn-ak.f.st-hatena.com/images/fotolife/d/dory111111/20260618/20260618200703.png)
Auto-GPTというオープンソースのAIエージェントが、リリースからわずか1ヶ月でGitHubのスターを10万超え集めました(当時のPyTorchの倍くらいです)。
2〜3日、目を離している隙に200コミットくらい更新されていて、なんというか狂気的なパワーを感じるプロジェクトでした。
AutoGPTを皮切りに1か月で様々なAIエージェント開発プロジェクトが乱立しました。
出典:[https://speakerdeck.com/dory/transforming-customer-experience-with-ai-agents](https://cdn-ak.f.st-hatena.com/images/fotolife/d/dory111111/20260618/20260618200812.png)
エージェントの思想を最小のコードで可視化した功績は計り知れません。
これらのAIエージェントの特徴は以下のイメージです。
- 人間が与えた目標から「やるべきこと(タスク)」を洗い出し、優先順位づけする
- 「WEB検索」「ファイル操作」「WebAPIを叩く」など外部ツールを使い分ける
- 実行結果やエラーをもとに、自分の行動を修正する
2026年現在からすると何の驚きも無いのですが、AIエージェントは当時からするととても画期的な仕組みでした。LLMは、要約・翻訳・質問応答といった「言葉を処理するタスク」では、当時から既に非常に高い性能を出していました。
一方、それを"考えて動く"ソフトウェアにどう発展させるかは未知数でした。
そんな中、AutoGPTやBabyAGIが「考えて動く」ソフトウェアの最小実装を、誰の目にも見える形で世に放ちました。実務に耐える代物ではなかったにせよ、「自律的に動くソフトウェアが、現実に動いている」という光景は、作り手のモチベーションを掻き立てるには十分すぎるものでした。
2023年、AIエージェントは間違いなく作り手にとって世界で一番アツいテーマでした。
AlgomaticでもこれらのOSSなどをベースに、いくつかのAIエージェントプロダクトを開発・検証していました。私はデータ分析を完全自動で行う「データエクスプレス」というAIエージェントの事業開発を担当していました。

3. ブームからの幻滅期
ですが2023年当時のAIエージェントは、ほとんど実務で使える水準にありませんでした。
当時のAIエージェントはコンセプト実装としては魅力的だったものの、業務で使えるかというと話はまったく別です。
Algomaticの「データエクスプレス」というプロダクトも意味がわからないくらい売れず、光の速さで撤退しました。
というのも、当時のAIエージェントにタスクを渡すと
- 同じようなタスクを延々と作り続けて無限ループに陥る
- 存在しないツールや結果を堂々とでっち上げる(ハルシネーションですね)
- そうこうしている間に、API課金だけがモリモリと積み上がっていく
という形で、うまく活用できるユースケースは多くありませんでした。
ReActの「考える → 道具を使う → 結果を見る → また考える」というループを当時のモデルで実行すると、3手4手と続くうちに最初の目的を見失います。一度ミスると、ミスったまま突き進む。仮に1ステップの成功率が9割でも、10ステップ連なれば全体では3割台まで成功確率は落ちます。AutoGPTの一番有名な失敗パターンは「同じことを繰り返すループ」でした。
当時のAIエージェントでありがちな無限ループ(出典:[https://x.com/pengjianqing/status/1646378577322184704)](https://cdn-ak.f.st-hatena.com/images/fotolife/d/dory111111/20260618/20260618202313.jpg)
そしてなにより、「タスクだけ放り込めば、あとは全部AIがやってくれる」という思想そのものに無理がありました。途中に人間のチェックポイントが無いから、暴走に誰も気づけず、止め時もわかりません。
要するに2023年〜2024年のAIエージェントは、ガートナーのハイプサイクルで言う「幻滅期」に、わかりやすく転がり落ちていっておりました。
「AIエージェントなんて、しょせんバズワードだったのでは?」2023年の終わり、界隈にはそんな空気すら漂っていました。
4. 幻滅期を越えて、実用化するAIエージェント
ところが2024年後半から、潮目が明確に変わりはじめます。
コーディングやブラウザ操作といった領域に特化したAIエージェントが、実務に耐える水準で次々と登場したのです。
口火を切ったのは、自ら「世界初のAIソフトウェアエンジニア」を名乗ったDevin(Cognition、2024年3月発表・12月一般提供)。続いてAnthropicのComputer Use(2024年10月)とOpenAIのOperator(2025年1月)がPC・ブラウザの自動操作を実用域に乗せ、OpenAIのDeep Research(2025年2月)はリサーチ業務を数十分で片づけるエージェントとして定着しました。そして決定打となったのが、ターミナル上で動くコーディングエージェント・Claude Code(2025年2月研究プレビュー、5月一般提供)です。
なぜこの数年でAIエージェントは「実用的に使えるもの」へと変わったのか。決定的だったのは、次の4点だと考えています。
① モデルの進化で「こなせるタスクの長さ」が伸びた
モデルの進化を定量で見せてくれるベンチマークのひとつが、METR(AI評価の研究機関)の調査です。
METRのTime Horizonという指標は「AIが自力で50%の確率でこなせるタスクの長さ」を示します。人間がやれば何分・何時間かかる仕事を、AIが半々の確率でやり切れるか、という尺度です。これがこの6年でおよそ7ヶ月ごとに倍増し続け、しかも2025年以降は倍増ペースがさらに加速しています。
実際の数字を並べると、GPT-2が約2秒、Claude 3.7 Sonnet(2025年2月)が約50分、o3(同4月)が約2時間、そしてMETRが計測した最新モデル(Opus 4.6)では約12時間。わずか1年ほどで桁が変わったことになります。
出典:[https://metr.org/time-horizons/](https://cdn-ak.f.st-hatena.com/images/fotolife/d/dory111111/20260618/20260618202347.png)
②コンテキストウィンドウの増加
AIエージェントは1ターンごとに「考えたこと・使ったツール・返ってきた結果」を、プロンプトに積み増していきます。
2023年のモデルの上限は、GPT-3.5で約4,000トークン、GPT-4でも約8,000トークン。日本語にすればせいぜい数千字ぶんです。ループを数回まわしただけで上限に激突し、エージェントは作業の途中で「自分が何をしようとしていたか」をまるごと忘れます。長い仕事が完遂できるはずもありません。
それが今や、主要モデルは100万トークン(日本語で数十万字、書籍数冊ぶん)を標準で扱えます。途中経過をすべて抱えたまま何十手と思考を重ねても、文脈を見失いません。
モデル(リリース時期)
コンテキスト上限(トークン)
GPT-3(2020)
2,048
GPT-3.5 / ChatGPT(2022)
4,096
GPT-4(2023.3)
8,192(32K版あり)
Claude 初代(2023.3)
約9,000(同年5月に100Kへ拡張)
Claude 2(2023.7)
100,000
GPT-4 Turbo(2023.11)
128,000
Claude 2.1(2023.11)
200,000
Gemini 1.5 Pro(2024.2)
1,000,000(のちに2M)
Claude 3 / 3.5 / 4 系(2024.3〜2025)
200,000(2025年にSonnet 4が1Mベータ対応)
GPT-4o(2024.5)
128,000
GPT-4.1 / Gemini 2.5 Pro(2025)
1,000,000
Claude Opus 4.6 / Sonnet 4.6(2026.3)
1,000,000(一般提供開始)
主要フロンティア(2026.6現在)
1,000,000〜が標準
③ツール利用が規格化された
現在ではMRKLが夢見た「LLMが道具を使う」が、誰でも使える規格になっています。
当時は「LLMにJSONをむりやり吐かせてパースする力技」でツールを利用してましたが、その力技を終わらせたのが、2023年6月のFunction Callingです。「この関数を、この形式で呼んでいい」とモデル側が構造化して返してくれるようになり、道具の呼び出しが一気に安定しました。
さらに2024年11月、AnthropicがMCP(Model Context Protocol)を発表します。「AIと外部ツール・データをつなぐ共通規格」で、よく"AIのUSB-C"と例えられるものです。各社がバラバラに作っていた連携が、共通の差込口に整理された。いまや主要なコーディングエージェントは、軒並みこのMCPを前提に設計されています。
④設計思想が成熟した
そして個人的にいちばん大事だと思うのが「全自動でAIエージェントに丸投げする」という2023年の夢を、みんなが一度きっぱり捨てた、という点です。
象徴的なのが、Anthropicが2024年末に出した「Building Effective Agents」という記事です。「まず一番シンプルな実装から始めよ。エージェント化はタスク性能を上げるが、レイテンシとコストも上げる。そして不可逆な操作の前には、人間が確認するチェックポイントを置こう」という趣旨の記載があります。
Building Effective AI Agents \ Anthropic
つまり、いまうまくいっているエージェントは、たいてい人との分業を行います。たとえば、AIが調査・下書き・実行まで一気に走り、人間が要所要所でAIを承認する。
この分業がワークするようになったからこそ、エージェントは実務に乗りはじめました。

5. まとめ
AIエージェントの4年間は、ひとことで言えば「いきなり全自動を夢見て一度爆死し、その後の技術進化によって実用化にたどり着いた4年間」でした。
ReActが「考えてから動く」を、MRKLが「道具を使う」をそれぞれ発明し、AutoGPTがサンプル実装としてその可能性を見せつけ、この3年でモデルの性能が進化しAIエージェントというコンセプトに追いついてきました。そう考えると、AIエージェントの黎明期に立ち会えたこの4年は、作り手として本当に面白い経験でした。
今後の世界はどうなるか。
恐らくSaaSビジネスはAIエージェントの派遣業のような形たちで進化していくと考えています。そしてそれと同時に、あらゆるソフトウェアがエージェント化した世界においては「AIエージェント」という言葉がきっと消えるのだと思います。
新しいものの登場によって、古いものを区別するために後付けで生まれる言葉のことをレトロニムと呼びます。エレキギターが当たり前になって従来のギターが「アコースティックギター」になり、携帯電話の普及で「固定電話」という呼び名が生まれました。面白いのは、新しい名前を背負わされるのは"新しい側"ではなく"古い側"だということです。
AIエージェントも同じ道をたどると考えています。いま「AIエージェント」とわざわざ呼ぶのは、それがまだ特別だからです。あらゆるソフトウェアが自律的に動くのが当たり前になれば、それは単に「AI」や「ソフトウェア」と呼ばれ、むしろ人間が一つひとつ操作する従来型のほうが「手動アプリ」とでも呼ばれる日が来るのかもしれません。
AIエージェントという言葉が消えたときこそが、AIエージェントの社会実装が本当に完了した合図なのだと思います。
エンジニアを募集しています!
ここまで読んでいただきありがとうございました!
Algomatic では、「AI革命で人々を幸せにする」をミッションに、変化の速い領域でも 学びや試行錯誤を続けられる エンジニアを募集しています。
もし少しでもご興味をお持ちいただけましたら、カジュアル面談に足を運んでいただけるとうれしいです!
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み