OpenAI、自律エージェントの基盤としてResponses APIを拡張
OpenAIは、開発者が自律エージェントのワークフローを構築しやすくするため、Responses APIを拡張し、シェルツールやエージェント実行ループなどの新機能を追加した。
キーポイント
Responses APIの拡張
OpenAIがResponses APIを拡張し、自律エージェントの基盤として機能するようにした。これにより、開発者がエージェント型ワークフローを構築しやすくなる。
新機能の追加
シェルツール、組み込みエージェント実行ループ、ホストされたコンテナワークスペース、コンテキスト圧縮、再利用可能なエージェントスキルなどのサポートが追加された。
開発者向け利便性の向上
これらの拡張により、開発者は自律エージェントの構築と管理がより簡単になり、複雑なワークフローの実装が効率化される。
影響分析・編集コメントを表示
影響分析
この拡張により、OpenAIのプラットフォーム上での自律エージェント開発が大幅に簡素化され、より複雑で実用的なAIエージェントの構築が促進される。AIエージェントの実用化と普及に貢献する可能性がある。
編集コメント
OpenAIがエージェント開発のハードルを下げる具体的な機能を提供することで、AIエージェントの実用化が加速する可能性がある注目すべき発表。
OpenAI は、開発者がエージェントワークフローを構築しやすくするために Responses API を拡張すると発表しました。これには、シェルツールのサポート、組み込みのエージェント実行ループ、ホストされたコンテナワークスペース、文脈の圧縮(コンテキスト・コンパクション)、再利用可能なエージェントスキルの追加が含まれます。
新しい機能により、OpenAI によると、Responses API を使用する開発者は、現実世界のタスクを安全かつ確実に実行するために独自の実行環境を構築する必要がなくなります。代わりに、中間ファイルの管理、プロンプト使用量の最適化、安全なネットワークアクセスの確保、タイムアウトとリトライの処理など、すべてのエージェント開発者が直面する実用的な課題に対処するように設計された組み込みインフラストラクチャに頼ることができます。
この新しい設計の中核にあるのは、エージェント実行ループです。モデルは即座に最終回答を生成するのではなく、「アクション」を提案します。具体的には、コマンドの実行、データへの問い合わせ、インターネットからの情報取得などが該当します。そのアクションは制御された環境で実行され、その結果がモデルに戻されます。このサイクルはタスクが完了するまで反復的に続きます。
実行ループは、新しい Shell ツールを活用してコマンドラインを介してコンピュータと対話することができ、grep、curl、awk といった一般的な Unix ユーティリティやその他のプログラムを使用してタスクを実行できます。これらはすべて標準で利用可能です。
既存の Python のみを実行するコードインタプリタと比較すると、シェルツールは Go や Java プログラムの実行や NodeJS サーバーの起動など、はるかに幅広いユースケースを可能にします。この柔軟性により、モデルは複雑なエージェントタスクを遂行できるようになります。
重要なのは、モデルがツールの使用を提案することはできても、自ら実行することはできないという点です。
シェルツールに加え、OpenAI はファイルやデータベースが存在するコンテナ化された実行環境もバンドルしています。この環境では、ネットワークアクセスはポリシー制御を通じて安全に管理されます。これらのツールは、すべての入力情報をプロンプトコンテキストに直接詰め込む必要性を減らすために設計されています。代わりに、モデルはシェルコマンドを使用して特定のファイルにアクセスし、利用可能な情報を解析または変換したり、データベースクエリを実行して関連する行のみを取得したり、データをネットワークから直接フェッチしたりできます。
ネットワークアクセスの安全性を確保するため、すべてのアウトバウンドトラフィックは、許可リストとアクセス制御を適用しつつトラフィックの可視性を維持する集中型ポリシー層を経由してルーティングされます。認証情報はコンテナ内に保存されず、モデルからは見えません。モデルが見るのは外部レイヤーで置換されるプレースホルダーのみです。
新しい Responses API で導入されたもう一つの重要な概念は「スキル」です。これは、定義済みのパターンに従ってシェルコマンドを実行する複雑で反復可能なタスクをより簡単に定義できるようにするものです。
エージェントのスキルは、これらのパターンを再利用可能で組み合わせ可能なビルディングブロックにパッケージ化します。具体的には、スキルは SKILL.md(メタデータと指示を含む)および API 仕様や UI アセットなどの関連リソースを含むフォルダバンドルとして構成されます。
新しい Responses API はまた、長期実行タスクにおけるコンテキストサイズの管理という課題にも対応しています。長期実行タスクは必然的にコンテキスト制限を超えてしまう傾向があるためです。これに対処するため、システムは圧縮(compaction)機能を使用し、重要な情報を保持しつつ過去のステップをより短い表現に圧縮します。これは Codex が行う処理と同様のアプローチです。これにより、エージェントはトークン制限を超えることなく、多数の反復処理を通じて作業を継続できます。
OpenAI によると、Responses API が提供するオーケストレーション機能と、シェルツール、コンテナベースの実行時コンテキスト、スキル、そして圧縮機能を組み合わせることで、開発者は単一のプロンプトから長期実行タスクを実行できるエージェントを構築できるようになります。詳細については、必ず元の発表文書をご確認ください。
著者について
セルジオ・デ・シモーネ
セルジオ・デ・シモーネはソフトウェアエンジニアです。セルジオは過去 25 年以上にわたり、シーメンスや HP、そして小規模なスタートアップなど、多様なプロジェクトや企業でソフトウェアエンジニアとして活動してきました。最近の 10 年以上は、モバイルプラットフォームおよび関連技術の開発に注力しています。現在は大規模データ分析サービスを提供する BigML, Inc. に勤務し、iOS および macOS の開発を統括しています。
詳細を表示表示しない
原文を表示
OpenAI announced they are extending the Responses API to make it easier for developers to build agentic workflows, adding support for a shell tool, a built-in agent execution loop, a hosted container workspace, context compaction, and reusable agent skills.
With the new capabilities, OpenAI says, developers using the Responses API will not need to build their own execution environments to safely and reliably execute real-world tasks. Instead, they can rely on a built-in infrastructure designed to handle the practical challenges that all agent developers face, such as managing intermediate files, optimizing prompt usage, ensuring safe network access, and handling timeouts and retries.
At the heart of this new design is the agent execution loop. Instead of producing a final answer immediately, the model can "propose" an action, such as running a command, querying some data, or fetching something from the internet. That action is executed in a controlled environment, and the result is fed back into the model. This cycle continues iteratively until the task is complete.
The execution loop can leverage the new Shell tool to interact with a computer via the command line, allowing it to carry out tasks using familiar Unix utilities like grep, curl, and awk, all available out of the box, and other programs.
Compared to our existing code interpreter, which only executes Python, the shell tool enables a much wider range of use cases, like running Go or Java programs or starting a NodeJS server. This flexibility lets the model fulfill complex agentic tasks.
It is important to understand that the model can only propose using a tool, not run it itself.
In addition to the Shell tool, OpenAI is also bundling a containerized execution environment where files and databases can live, with network access safely managed through policy controls. These tools are designed to reduce the need for packing all input directly into the prompt context. Instead, the model can access specific files using shell commands to parse or transform the available information, run a database query to pull in only the relevant rows, or fetch the data directly from the network.
To make network access safe, all outbound traffic is routed through a centralized policy layer that enforces allow-lists and access controls while keeping traffic observable. Credentials are not stored inside the container and remain invisible to the model, which only sees placeholders that are replaced in the external layer.
Another key idea introduced with the new Responses API is "skills", which makes it easier to define complex, repeatable tasks that execute shell commands according to a predefined pattern.
Agent skills package those patterns into reusable, composable building blocks. Concretely, a skill is a folder bundle that includes SKILL.md (containing metadata and instructions) plus any supporting resources, such as API specs and UI assets
The new Responses API also addresses the challenge of managing context size for long-running tasks, which inevitably tend to exceed context limits. To handle this, the system uses compaction, compressing previous steps into a shorter representation while preserving the important information, similarly to what Codex does. This allows the agent to continue working over many iterations without exceeding token limits.
According to OpenAI, by combining the orchestration capabilities provided by the Responses API, along with shell tools, container-based runtime context, skills, and compaction, developers can build agents capable of executing long-running tasks from a single prompt. For the full details, be sure to check the original announcement.
About the Author
Sergio De Simone
Sergio De Simone is a software engineer. Sergio has been working as a software engineer for over twenty five years across a range of different projects and companies, including such different work environments as Siemens, HP, and small startups. For the last 10+ years, his focus has been on development for mobile platforms and related technologies. He is currently working for BigML, Inc., where he leads iOS and macOS development.
Show moreShow less
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み