AI エージェントの速度とエネルギー効率を向上させる研究
MIT と Microsoft の共同研究により、開発者の言語記述から自動で最適なモデル・ツール・ハードウェア構成を決定し、エネルギー効率とコストを大幅に削減する新システムが発表された。
キーポイント
自律型ワークフローの最適化自動化
開発者が自然言語で要件を記述するだけで、システムが自動的に最適な AI モデル、外部ツール、およびハードウェア構成を選択・実装する。
動的リソース調整による効率向上
コスト最小化や速度最大化などユーザーの優先度に基づき、実行時にリソース配分をリアルタイムで調整し、従来手法より計算単位とエネルギー消費を大幅に削減する。
複雑化するクラウド基盤への対応
自律型 AI エージェントがクラウドプロバイダの中核となる中、リソースの過剰配分を防ぎ、持続可能な運用を実現するための重要な技術的進展である。
影響分析・編集コメントを表示
影響分析
本技術は、AI エージェントがクラウドインフラの基盤となる中で直面しているエネルギー効率とコスト管理の課題に対する画期的な解決策となります。開発者の負担を減らしつつ、リソース使用量を最適化することで、大規模な AI ワークフローの実用性と持続可能性が大幅に向上します。
編集コメント
MIT と Microsoft の連携による、AI エージェントの実行効率を根本から改善する画期的なアプローチです。エネルギー問題が深刻化する中、クラウドプロバイダ側の最適化能力を強化するこの技術は、今後の AI インフラ標準の確立に大きく寄与するでしょう。
エージェント型ワークフローは、複数のモデルや外部ツールを連鎖させて、ビデオの分析とその内容に関する質問への回答といった複雑なタスクに取り組む、人工知能(AI)を活用したソフトウェアシステムです。
しかし、これらの高度に断片化されたシステムの設計および展開方法には、計算資源・エネルギー・コストの無駄につながる非効率性がしばしば生じます。
効率性を向上させるため、MIT と Microsoft の研究者らは、エージェント型ワークフローの設計プロセスを簡素化し、その実装方法を自動的に最適化するインテリジェントシステムを開発しました。
この新しい手法では、開発者はアプリケーションの詳細な仕様を事前に指定する必要なく、自然言語でエージェント型ワークフローに求める機能を記述するだけで済みます。
システムは、使用する最適なモデルやツール、およびクラウドプロバイダがワークフローを実行する際の理想的なハードウェア構成と計算リソースの割り当てを自動的に決定します。
このシステムは、コスト最小化や速度最大化など、各ユーザーの優先事項に基づいて、実行中にこれらの設定を動的に調整します。
いくつかのエージェント型負荷でテストした結果、従来の手法と比較して、必要な計算ユニット数を大幅に削減し、パフォーマンスを損なうことなく、エネルギー要件とコストを劇的に低減できることが示されました。
「エージェント型ワークフローは非常に複雑化しており、クラウドプロバイダーが行うことの骨格へと急速に変わりつつあります。エネルギー使用量は大きな懸念事項であり、これらのワークフローがいかに効率的であるかについて非常に注意を払う必要があります。リソースを過剰に割り当ててエネルギーと資金を浪費するのは非常に容易です。クラウドプロバイダーがこれらのワークフローをインテリジェントにリソース最適化できるようにすることは、関係するすべての人にとっての勝利です」と、電気工学およびコンピュータサイエンス(EECS)の大学院生であり、このシステムに関する論文の筆頭著者であるゴハル・チャウドリー氏は述べています。
同論文には、EECS准教授かつMITコンピュータサイエンスおよび人工知能研究所(Computer Science and Artificial Intelligence Laboratory)のメンバーであるアダム・ベレイ氏、マイクロソフト・Azureのテクニカルフェロー兼企業副社長であり上級著者であるリカルド・ビアンキーニ氏、およびマイクロソフト・Azureの他の研究者らが参加しています。この論文は、USENIXオペレーティングシステム設計と実装シンポジウム(USENIX Symposium on Operating Systems Design and Implementation)で発表されます。
設定の難問
エージェント型ワークフローとは、データベースやPythonプログラムなどのさまざまなモデルやツールを協働して使用し、データ処理やコード生成のような多段階タスクを動的に完了させる、複数の自律型AIエージェントから構成されるシステムです。
これらのワークフローは、ユーザー向けアプリケーションを支える裏方プロセスとして機能することができます。
通常、開発者はすべての技術的な選択を事前にハードコードする必要があります。使用する AI エージェント、モデル、ツール、およびそれらの使用順序を定義し、ワークフローを実行するハードウェアと、速度対コストのようなトレードオフのバランスの取り方を指定しなければなりません。
これは特に困難です。なぜなら、エージェント型ワークフローは、それぞれが独自の設定オプションを持ち、異なる企業によって提供される可能性のある複数のブラックボックスモデルや多様なツールを結びつけるからです。
アプリケーションの精度や効率を向上させる新しい AI モデルがリリースされた場合、開発者はそれを実装するために最初からやり直す必要があります。
「手動でこれらすべてを行おうとしても、可能な設定の空間があまりにも広大であるため、ワークフローを最適に構成することは unlikely でしょう」と Chaudhry は述べています。
さらに、顧客のためにアプリケーションを展開するクラウドデータセンターは、ユーザーのリクエスト時にハードウェアリソースを最も効率的な方法で割り当てるために、ワークフロー内部を参照することができません。
この新しいシステム「Murakkab」(ウルドゥー語で「ものの組み合わせ」を意味する)では、研究者らはエージェント型ワークフロープロセス全体を最適化することを目指しました。
動的意思決定
まず、Murakkab を使用すれば、開発者はワークフローの多くのコンポーネントをどのように結合するかという詳細ではなく、アプリケーションに対する意図を高レベルな用語で記述するだけで、エージェント型ワークフローを作成できます。
例えば、開発者がキーフレームの抽出、文字起こしの生成、そして動画に関するユーザーの質問への回答を行うビデオ Q&A アプリケーションを記述する場合があります。
「これを実現する方法は多数あり、これらの異なるモデルやツールは、アプリケーションがタスクを終了する速度にどのような影響を与えるかを決定します」と彼は言います。
Murakkab は開発者の明確な仕様を受け取り、ワークフローに組み込む最適な既存のモデルとツールを自動的に特定します。
また、パフォーマンス向上のためにどのコンポーネントを順次実行し、どのコンポーネントを並列実行すべきかを決定します。
「このプラットフォームは時間経過とともに動的に設定決定を行うため、明日新しいモデルや GPU アクセラレータが登場しても、開発者はそれを気にする必要がありません」と彼は言います。
クラウドプロバイダが顧客のためにそのアプリケーションを展開する際、Murakkab はコンポーネントを設定してユーザーの制約(例えば、レイテンシ要件を満たしつつ精度を優先するなど)に応えることでワークフローを最適化します。
リアルタイムで効率を最大化するために理想的なハードウェア割り当てと展開スケジュールを適応的に特定し、クラウドプロバイダが実行可能なワークフローを生成します。
「私たちのシステムはまた、クラウドプロバイダに対して複数のワークロードの可視性を提供するため、プロバイダはユーザーの制約を満たしつつ、計算リソースを最も効率的な方法で共有できます」と彼は言います。
動画 Q&A やコード生成の多様なエージェントワークフローでテストされた結果、Murakkab は他の手法に必要な計算資源の約 35% しか使用せずにユーザー要件を満たしました。また、コストは 25% 未満で済む一方で、消費エネルギーも約 27% に抑えられました。
Murakkab の動的な性質により、ユーザーはトレードオフを調整することが可能になります。ある事例では、システムの精度が顧客にとってわずか 2% 低下するだけで、エージェントワークフローのエネルギー消費を桁違いに(10 倍以上)削減することに成功しました。
また、このシステムは動画フレームを選択するモデルに対して予期せぬほど理想的な構成を特定し、動画 Q&A タスクのパフォーマンスを最適化することができました。Chaudhry 氏によれば、このような最適化を手動で開発者が行うことはほぼ不可能だといいます。
次に研究者たちは、より複雑なワークフローや大規模な計算クラスターへのシステム拡張を検討しつつ、新しいエージェントアプリケーションの最適化機会を探る計画です。
「これらのワークフローをリソース最適化し、エネルギー消費を大幅に削減する可能性は非常に大きいですが、主要なクラウドプラットフォームのスケールでこれを考える必要があります」と Chaudhry 氏は述べています。
本研究は一部、Semiconductor Research Corporation および米国国防高等研究計画局(Defense Advanced Research Projects Agency)によって支援されました。
原文を表示
Agentic workflows are artificial intelligence-powered software systems that chain together multiple models and external tools to tackle complicated tasks, like analyzing a video and answering questions about it.
But the way these highly fragmented systems are designed and deployed often causes inefficiencies that can lead to wasted computation, energy, and cost.
To improve efficiency, researchers from MIT and Microsoft developed an intelligent system that streamlines the process of designing agentic workflows and automatically optimizes how those workflows are implemented.
With this new method, a developer can describe what they want the agentic workflow to do in plain language, without needing to specify all the details of their application in advance.
The system automatically figures out the best models and tools to use, as well as the ideal hardware configuration and computational resource allocation when the workflow is executed by a cloud provider.
It adjusts those configurations on the fly based on each user’s priorities, such as minimizing costs or maximizing speed.
When tested on several agentic workloads, this new system reduced the number of computational units needed for deployment, significantly cutting energy requirements and costs compared to traditional approaches without hampering performance.
“Agentic workflows are getting very complicated and quickly becoming the backbone of what cloud providers are doing. Energy usage is a huge concern, so we need to be very careful about how efficient these workflows are. It is very easy to over-allocate resources, wasting energy and money. Enabling a cloud provider to intelligently make these workflows more resource-optimal is a win for everyone involved,” says Gohar Chaudhry, an electrical engineering and computer science (EECS) graduate student and lead author of a paper on this system.
He is joined on the paper by Adam Belay, an associate professor of EECS and a member of the MIT Computer Science and Artificial Intelligence Laboratory; senior author Ricardo Bianchini, technical fellow and corporate vice president at Microsoft Azure; and others at Microsoft Azure. The paper will be presented at the USENIX Symposium on Operating Systems Design and Implementation.
A configuration conundrum
An agentic workflow is a system composed of several autonomous AI agents that collaboratively use various models and tools, like databases or Python programs, to dynamically complete a multi-step task, such data processing or code generation.
These workflows can serve as behind-the-scenes processes that power user-facing applications.
Typically, developers must hard-code all technical choices upfront. They need to define which AI agents, models, and tools to use, and the order in which to use them. They also must specify the hardware that runs the workflow and how to balance tradeoffs like speed versus cost.
This is especially challenging because agentic workflows bring together multiple black-box models and diverse tools, each with their own configuration options, which may be offered by different companies.
If a new AI model is released that would improve the application’s accuracy or efficiency, the developer would need to start from scratch to implement it.
“Even if you wanted to do all this manually, it is unlikely that you’ll be able to configure the workflow optimally because the space of possible configurations is so large,” Chaudhry says.
In addition, the cloud data center that deploys the application for customers can’t see inside the workflow to allocate its hardware resources in the most efficient manner at the time of the user’s request.
With this new system, called Murakkab (an Urdu word that means a composition of things), the researchers sought to optimize the entire agentic workflow process.
Dynamic decision-making
First, Murakkab enables developers to create an agentic workflow by describing their intent for the application in high-level terms, rather than detailing how* *the many components of that workflow should be combined.
For instance, a developer might describe a video Q&A application that extracts key frames, generates a transcript, and then answers user queries about the video.
“There are many ways to do this, and all these different models and tools have implications on how fast the application can finish the task,” he says.
Murakkab takes the developer’s straightforward specifications and automatically identifies the best existing models and tools to put together into the workflow.
It also determines which components need to run sequentially and which can be run in parallel to boost performance.
“The platform makes configuration decisions dynamically over time, so if a new model or GPU accelerator comes out tomorrow, the developer doesn’t need to worry about that,” he says.
When the cloud provider deploys that application for a customer, Murakkab optimizes the workflow by configuring its components to meet the user’s constraints, such as prioritizing accuracy while meeting a latency requirement.
It adaptively identifies ideal hardware allocations and deployment schedules to maximize efficiency in real time, then generates a workflow that is ready for the cloud provider to execute.
“Our system also gives cloud providers visibility into multiple workloads, so the provider can share computational resources in the most efficient manner while satisfying the constraints of users,” he says.
When tested on diverse agentic workflows for video Q&A and code generation, Murakkab met user requirements while using only about 35 percent of the computation required by other methods. It consumed only about 27 percent as much energy for less than 25 percent of the cost.
The dynamic nature of Murakkab also enables users to balance tradeoffs. In one instance, the system lowered energy consumption of an agentic workflow by more than an order of magnitude with only about a 2 percent drop in accuracy for the customer.
The system was also able to identify an unexpectedly ideal configuration for a model that selects video frames, optimizing performance for a video Q&A task. This type of optimization would be nearly impossible for a developer to do manually, Chaudhry says.
Next, the researchers plan to expand their system to more complex workflows and larger computing clusters while exploring opportunities to optimize new agentic applications.
“There is a lot of potential to make these workflows more resource-optimal so they consume far less energy, but we need to be thinking about this at the scale of major cloud platforms,” says Chaudhry.
This research was supported, in part, by the Semiconductor Research Corporation and the U.S. Defense Advanced Research Projects Agency.
関連記事
MIT の新チップが複雑な環境を移動する小型ロボットの支援へ
MIT の研究者が開発した新チップは、LED1 個分の電力でリアルタイムに詳細な 3D マップを作成し、バッテリー制限のある小型自律型ロボットや UAV が複雑な環境でも障害物を回避して安全に移動できるようにする。
金属合金の挙動をより良くモデル化する新手法
MIT の研究チームが、ロケットや半導体などでの材料挙動予測を困難にする複雑な化学配列をシミュレーションする新たなアプローチを開発し、コストと時間を削減する可能性を示した。
ゲーム理論では、一般化された戦略が専門化された戦略に勝る場合がある
MIT の研究者らが発表した研究で、不完全な情報下でのポーカーや入札競争などのシナリオにおいて、特定の状況に特化した専門家よりも、幅広い状況に対応できる一般化された戦略の方が勝利する可能性を示した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み