Agent Engineering: A New Discipline｜エージェント工学：新たな学問分野として確立 | AIニュース最前線

![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69cbaa2ac540f9b55e27ee80_Agent-Engineering_-A-New-Discipline.png) エージェントを構築したことがある方ならご存知の通り、「自分のマシンでは動く」と「本番環境で動作する」の間には大きな隔たりがあります。従来のソフトウェア開発は、入力を主に把握しており出力を定義できると仮定しています。しかし、エージェントにおいてはどちらも保証されません：ユーザーは何でも言い放つ可能性があり、起こりうる行動の範囲も極めて広範です。だからこそエージェントは強力な存在となる一方で、予期せぬ方向へ逸脱してしまうリスクも抱えています。 過去 3 年間で、私たちは数千ものチームがこの現実と格闘する姿を目にしてきました。本番環境に信頼性の高い成果物を納品することに成功した企業、例えば Clay、Vanta、LinkedIn、Cloudflare などは、従来のソフトウェア開発のプレイブックに従っているわけではありません。彼らは新しい領域を切り開いています：**エージェントエンジニアリング**です。 ## エージェントエンジニアリングとは何か？ エージェントエンジニアリングとは、非決定性の大規模言語モデル（LLM: Large Language Model）システムを、信頼性のある本番環境での体験へと洗練させる反復プロセスのことです。これは「構築し、テストし、リリースし、観測し、改善し、繰り返す」という循環的なプロセスです。 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69cbaa2ac540f9b55e27eead_Frame-1--2--1.png) ここで重要なのは、リリースすることが最終目標ではないということです。それは、新たな洞察を得てエージェントを改善し続けるための手段に過ぎません。意味のある改善を行うためには、本番環境で何が起きているかを理解する必要があります。このサイクルを速く回すほど、エージェントの信頼性は高まります。 私たちは、エージェントエンジニアリングを 3 つのスキルセットが連携する新しい学問分野と捉えています: - プロダクト思考は範囲を定義し、エージェントの振る舞いを形作ります。これには以下が含まれます: エージェントの振る舞いを駆動するプロンプトの作成（しばしば数百行から数千行に及ぶ）。ここでは優れたコミュニケーション能力と文章力が鍵となります。 - エージェントが複製する「達成すべき仕事」を深く理解すること - 「達成すべき仕事」に従ってエージェントが意図通りに機能しているかをテストする評価基準を定義すること - エンジニアリングは、本番環境で利用可能なエージェントを実現するためのインフラストラクチャを構築します。これには以下が含まれます: エージェントが使用するツールの作成 - エージェントとのインタラクションのための UI/UX の開発（ストリーミング処理、割り込みハンドリングなどを含む） - 永続的な実行、人間によるループの一時停止、メモリ管理に対応する堅牢なランタイムの構築 - データサイエンスは、時間経過に伴うエージェントのパフォーマンスを測定し改善します。これには以下が含まれます: エージェントのパフォーマンスと信頼性を測定するためのシステム（評価、A/B テスト、モニタリングなど）の構築 - 使用パターンの分析およびエラー分析（従来のソフトウェアよりもユーザーがエージェントを利用する範囲が広いため） ## エージェントエンジニアリングが現れる場所 エージェントエンジニアリングは新しい職種名ではありません。むしろ、推論し、適応し、予測不能な振る舞いをするシステムを構築する際に既存のチームが引き受ける責任の一セットです。今日信頼性の高いエージェントをリリースしている組織は、非決定論的（non-deterministic）システムの要求に応えるために、エンジニアリング、プロダクト、データチームのスキルを拡張しています。 この実践が典型的に現れる場所は以下の通りです： - ソフトウェアエンジニアや機械学習エンジニアがエージェントが使用するプロンプトを作成しツールを構築し、なぜエージェントが特定のツール呼び出しを行ったかを追跡し、基盤となるモデルを洗練させること - 永続的な実行と人間をループに組み込んだワークフロー（human-in-the-loop workflows）を処理するエージェントインフラストラクチャを構築するプラットフォームエンジニア - プロンプトを作成し、エージェントのスコープを定義し、エージェントが正しい問題を解決していることを保証するプロダクトマネージャー - エージェントの信頼性を測定し改善の機会を特定するデータサイエンティスト これらのチームは迅速な反復（rapid iteration）を受け入れ、ソフトウェアエンジニアがエラーを追跡して PM に引き渡し、その洞察に基づいてプロンプトを調整したり、PM がエンジニアによる新しいツールの必要性を伴うスコープの問題を特定したりする様子をよく見かけます。それぞれが、エージェントの堅牢化における真の仕事は、生産環境での振る舞いを観察し、そこで得た知見に基づいて体系的に洗練させるというこのサイクルを通じて行われることを認識しています。 ## なぜエージェントエンジニアリングなのか、そしてなぜ今なのか？ 2 つの根本的な変化が、エージェントエンジニアリングを必要としています。 まず、LLM は複雑で多段階のワークフローを処理するのに十分なほど強力です。エージェントが単なるタスクではなく、職務全体を引き受ける様子を見てきました。Clay では、見込み顧客のリサーチからパーソナライズされたアウトリーチ、CRM の更新まで、あらゆる業務をエージェントに任せています。LinkedIn では、採用のために膨大な人材プールをスキャンし、候補者をランク付けして、最も強力なマッチングを即座に提示するためにエージェントを活用しています。私たちはついに、エージェントが生産環境で意味のあるビジネス価値を提供する閾値を超えつつあります。 第二に、その力には現実的な予測不可能性が伴います。単純な LLM アプリは非決定論的ですが、行動がより限定された範囲に収まる傾向があります。しかし、エージェントは異なります。彼らは複数のステップにわたって推論を行い、ツールを呼び出し、文脈に基づいて適応します。エージェントを有用にする同じ特性が、従来のソフトウェアとは異なる振る舞いをもたらすのです。これは通常、以下のような意味を持ちます： - すべての入力はエッジケースです。ユーザーが自然言語で何でも質問できる場合、「通常の」入力などというものは存在しません。「ポップにしてください」や「前と同じことを、でも違うやり方でやって」と入力すると、エージェント（人間と同様に）はプロンプトを異なる方法で解釈する可能性があります。 - 従来のデバッグ手法では対応できません。ロジックの多くがモデル内部に組み込まれているため、各意思決定とツール呼び出しを検証する必要があります。小さなプロンプトや設定の変更が、動作に大きな変化をもたらすことがあります。 - 「動作している」という状態は二値（Yes/No）ではありません。エージェントが 99.99% の稼働率を維持していても、軌道から外れて破損している可能性があります。重要な問いに対して常に単純な Yes/No で答えられるわけではありません。例えば、「エージェントは正しい判断を下しているか？」「ツールを適切に使用しているか？」「指示の背後にある意図に従っているか？」といった問いです。 - これらをすべて総合すると、従来のソフトウェアでは解決できない方法で動作しながらも、実際には高インパクトなワークフローを実行するエージェントが存在します。ここに新たな分野が必要とされ、その機会が生まれます。エージェントエンジニアリング（Agent Engineering）により、LLM の力を活用しつつ、本番環境でも実際に信頼できるシステムを構築することが可能になります。 ## エージェントエンジニアリングは実際にはどのようなものか？ エージェントエンジニアリングは、従来のソフトウェア開発とは異なる原則に基づいています。信頼性の高いエージェントシステムを実現するためには、「学習した後に実装する」のではなく、「実装すること自体が学習である」という考え方が基本となります。 私たちは、成功しているエンジニアリングチームが、以下のようなリズムでエージェント開発を行っている様子を目にしてきました： - エージェントの基盤を構築する。エージェントの基盤設計から始めましょう。これは、ツール付きの単純な LLM 呼び出しであっても、複雑なマルチエージェントシステムであっても構いません。必要なワークフロー（決定論的な段階ごとのプロセス）とエンタインスメント（LLM に駆動された意思決定）のバランスに応じて、アーキテクチャは決まります。 - 想像できるシナリオに基づいてテストする。プロンプト、ツール定義、ワークフローにおける明白な問題を発見するために、例示されたシナリオに対してエージェントをテストしてください。ユーザーフローをマッピングできる従来のソフトウェアとは異なり、自然言語入力に対するユーザーのあらゆる相互作用方法を事前に予測することはできません。「徹底的にテストしてからリリースする」という思考から、「合理的にテストして、実際に何が重要かを学ぶためにリリースする」へとマインドセットを変えましょう。 - 実際の動作を確認するためにリリースする。一度リリースすれば、考慮していなかった入力が即座に見え始め、すべての本番環境のトレースが、エージェントが実際に対処する必要のあるものが何であるかを示します。 - 観察する。各対話の完全な会話履歴、呼び出されたすべてのツール、そしてエージェントが下した各意思決定に影響を与えた正確なコンテキストを把握するために、すべての相互作用を追跡してください。精度、レイテンシ、ユーザー満足度、またはその他の基準に関係なく、本番データに対して評価（evals）を実行してエージェントの品質を測定します。 - 改善する。失敗のパターンを特定したら、プロンプトの編集やツール定義の変更によって改善を行います。これは継続的なプロセスであり、問題のあるケースを回帰テスト用の例示シナリオセットに再度追加することができます。 - 繰り返す。改善分をリリースし、本番環境で何が変わっているかを見守ってください。各サイクルを通じて、ユーザーがどのようにエージェントと相互作用しているかについて新たな知見を得られ、あなたの文脈において信頼性（reliability）が実際に何を意味するのかを理解できます。 ## エンジニアリングにおける新たな基準 今日、信頼性の高いエージェントをリリースしているチームに共通する点は一つあります。それは、ローンチ前にエージェントを完璧にしようとするのをやめ、生産環境こそが最大の教師であると捉え始めたことです。つまり、すべての意思決定を追跡し、大規模な評価を行い、改善点を四半期単位ではなく数日でリリースすることです。 エージェントエンジニアリングが台頭しているのは、その機会がそれを求めているからです。エージェントは以前は人間の判断を必要としていたワークフローを処理できるようになりましたが、信頼して任せられるだけの信頼性を確保できる場合に限り可能です。近道はありません。あるのは反復という体系的な作業だけです。エージェントエンジニアリングが標準的な実践になるかどうかではなく、あなたのチームがいかに迅速にこれを採用し、エージェントの可能性を引き出すかが問われています。 ## 関連コンテンツ ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a317b118693f5be4a8e220f_97.png) Deep Agents Open Source Agent Architecture ## ループエンジニアリングの芸術 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69dcee60745f0e15b18ad4d5_sydney-runkle.png) Sydney Runkle 2026 年 6 月 16 日 7 分 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a2035adfcf624bfe1b4fd22_94%20(1).png) Open Source LangChain Agent Architecture Deep Agents ## カスタムエージェントハッチの構築方法 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69dcee60745f0e15b18ad4d5_sydney-runkle.png) Sydney Runkle 2026 年 6 月 3 日 6 分 ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a1f12f366c8242870d2fdcf_92.png) Deep Agents Open Source Agent Architecture ## ルブリックの導入：自己評価と修正を行うエージェントを構築する ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a1f132e8331060a67bd6e06_shrikar.png) ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69dcee60745f0e15b18ad4d5_sydney-runkle.png) S. Seshadri, S. Runkle 2026 年 6 月 2 日 4 分 ## エージェントが実際に何をしているかを確認する LangSmith は、エージェントエンジニアリングプラットフォームであり、開発者がすべてのエージェントの意思決定をデバッグし、評価の変更を行い、ワンクリックでデプロイできるよう支援します。

エージェント工学：新たな学問分野として確立

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト