AIの電力消費を推定する高速な手法
MITとIBM Watson AI Labは、従来の数時間〜数日かかる手法を数秒で完了させる高速なAI電力消費予測ツールを開発し、データセンターのエネルギー効率向上とサステナブルなAI運用の実現に貢献する。
キーポイント
高速な電力消費予測ツールの開発
MITとIBMの研究者チームは、特定のAIワークロードが特定のプロセッサやアクセラレータチップで消費する電力を数秒以内に予測できる手法を開発した。
従来手法との比較と優位性
従来のモデル化技術は結果を得るのに数時間から数日を要するが、新手法は高速かつ広範なハードウェア構成(未実装の設計含む)に適用可能。
データセンターとアルゴリズム開発者への適用
このツールは、データセンターオペレーターが限られたリソースを複数のAIモデルとプロセッサ間で効率的に割り当てることを支援し、アルゴリズム開発者はデプロイ前に新モデルのエネルギー消費を評価できる。
AIサステナビリティへの貢献
2028年までに米国の総電力消費の最大12%をデータセンターが占める可能性がある中、この迅速なフィードバックはエネルギー消費削減意識の向上と持続可能なAIの実現に寄与する。
影響分析・編集コメントを表示
影響分析
この技術は、AIモデルの規模拡大に伴うデータセンターの膨大な電力需要という社会的・経済的課題に対して、実用的な解決策を提供する。特に、開発段階での早期フィードバックにより、エネルギー効率の高いモデル設計やハードウェア選択を促進することで、AI業界全体のサステナビリティ基準を高める可能性がある。
編集コメント
AIモデルの性能向上だけでなく、その環境コストを可視化・最適化するツールの実用化は、規制強化が進む中で企業競争力の源泉となる。
人工知能の爆発的な成長により、ローレンス・バークレー国立研究所の推計では、2028年までにデータセンターが全米の電力消費量の最大12%を占める可能性がある[1]。データセンターのエネルギー効率を向上させることは、科学者たちがAIを持続可能にするために取り組んでいる方法の一つである。
この目標に向けて、MIT(マサチューセッツ工科大学)とMIT-IBM Watson AI Labの研究者たちは、特定のプロセッサやAIアクセラレータチップ上で特定のAIワークロードを実行した際に消費される電力量をデータセンターの運用者に示す、高速な予測ツールを開発した。
従来のモデリング手法では結果を得るのに数時間、場合によっては数日かかるのに対し、彼らの手法は数秒で信頼性の高い電力見積もりを生成する。さらに、この予測ツールは、まだ展開されていない新興設計を含む、幅広いハードウェア構成に適用可能である。
データセンターの運用者は、これらの見積もりを活用して、複数のAIモデルやプロセッサに限られた資源を効果的に配分し、エネルギー効率を向上させることができる。加えて、このツールにより、アルゴリズム開発者やモデル提供者は、新しいモデルを展開する前にその潜在的なエネルギー消費量を評価することが可能になる。
"AI の持続可能性に関する課題は、私たちが答えなければならない喫緊の問いです。私たちの推定手法は高速で便利であり、直接的なフィードバックを提供するため、この技術がアルゴリズム開発者やデータセンターの運用者にエネルギー消費削減について考えるきっかけとなることを願っています」と、MIT のポスドクであり、この手法に関する論文の筆頭著者である Kyungmi Lee は語ります。
論文の共著者には、電気工学・コンピュータサイエンス(EECS)の大学院生である Zhiye Song、IBM Research および MIT-IBM Watson AI Lab のリサーチマネージャーである Eun Kyung Lee と Xin Zhang、IBM Fellow かつ IBM Research の持続可能なコンピューティング担当チーフサイエンティストであり MIT-IBM Watson AI Lab メンバーである Tamar Eilam、そして筆頭著者であり MIT 学長、Vannevar Bush 電気工学・コンピュータサイエンス教授、MIT-IBM Watson AI Lab メンバーである Anantha P. Chandrakasan が名を連ねています。この研究は、今週開催される IEEE Performance Analysis of Systems and Software 国際シンポジウムで発表されます。
エネルギー推定の高速化
データセンター内では、数千台の高性能なグラフィックスプロセッシングユニット(GPU)が AI モデルの学習および展開のための演算処理を行っています。特定の GPU の電力消費量は、その構成や処理中のワークロードによって変動します。
エネルギー消費を予測するために従来から用いられている多くの手法は、ワークロードを個々のステップに分解し、GPU 内の各モジュールがステップごとにどのように利用されているかをシミュレートするものです。しかし、モデル学習やデータ前処理といった AI ワークロードは極めて巨大であり、この方法でシミュレーションを行うには数時間、場合によっては数日かかることもあります。
「運用者として、異なるアルゴリズムや構成を比較し、最もエネルギー効率の高い実行方法を見つけたい場合、単一のシミュレーションに数日かかるようでは、非常に非現実的になってしまいます」とリーは語ります。
予測プロセスを高速化するため、MIT の研究者たちは、より迅速に推定可能な、詳細度の低い情報を使用するアプローチを探りました。彼らは、AI ワークロードには多くの反復可能なパターンが存在することに気づきました。これらのパターンを用いて、信頼性が高くかつ迅速な電力推定に必要な情報を生成できることが判明しました。
多くの場合、アルゴリズム開発者は GPU 上で可能な限り効率的に実行されるプログラムを記述します。例えば、彼らはよく構造化された最適化手法を用いて、並列処理コアに作業を分散し、データチャンクを最も効率的な方法で移動させます。
「ソフトウェア開発者が使用するこれらの最適化は規則的な構造を生み出します。私たちが狙っているのは、この構造を活用することです」とリーは説明します。
研究者たちは、これらの最適化から GPU の電力使用パターンを捉える軽量な推定モデル「EnergAIzer」を開発しました。
正確な評価
しかし、その推定は高速ではあったものの、研究者たちはすべてのエネルギーコストを考慮に入れていないことに気づいた。例えば、GPU がプログラムを実行するたびに、そのプログラムの設定と構成には固定されたエネルギーコストが必要である。さらに、GPU がデータのかたまりに対して演算を毎回実行する際にも、追加のエネルギーコストが発生する。
ハードウェアのばらつきやデータへのアクセス・移動における競合により、GPU は利用可能な帯域幅のすべてを使用できない場合があり、その結果、演算が遅延し、時間とともにより多くのエネルギーを消費することになる。
これらの追加コストとばらつきを含めるため、研究者たちは GPU からの実際の測定値を集め、推定モデルに適用する補正項を生成した。
「この方法により、高速かつ非常に正確な推定が可能になります」と彼女は述べる。
最終的に、ユーザーは実行したい AI モデルや処理するユーザー入力の数と長さといったワークロード情報を提供でき、EnergAIzer は数秒以内にエネルギー消費量の推定値を出力する。
ユーザーは GPU の構成を変更したり、動作速度を調整したりして、そのような設計上の選択が全体の電力消費にどのような影響を与えるかを確認することもできる。
研究者たちが実際の GPU からの本物の AI ワークロード情報を用いて EnergAIzer をテストしたところ、電力消費の推定誤差は約 8 パーセントにとどまり、結果を得るのに数時間を要する従来の手法と同等の精度であった。
この手法は、短期間にハードウェアが劇的に変更されない限り、将来の GPU や新興デバイスの構成における電力消費を予測するためにも使用できる。
将来的には、研究者たちは EnergAIzer を最新の GPU 構成でテストし、モデルをスケールアップして、ワークロードを実行するために協力する多数の GPU に適用できるようにすることを目指している。
「持続可能性に本当に影響を与えるためには、ハードウェア設計者、データセンターの運用者、アルゴリズム開発者のすべてが電力消費をより意識できるよう、スタック全体にわたって高速なエネルギー推定ソリューションを提供するツールが必要です。このツールにより、私たちはその目標に向けて一歩を踏み出しました」と Lee は述べている。
この研究は、MIT-IBM Watson AI Lab によって部分的に資金提供された。
原文を表示
Due to the explosive growth of artificial intelligence, it is estimated that data centers will consume up to 12 percent of total U.S. electricity by 2028, according to the Lawrence Berkeley National Laboratory. Improving data center energy efficiency is one way scientists are striving to make AI more sustainable.
Toward that goal, researchers from MIT and the MIT-IBM Watson AI Lab developed a rapid prediction tool that tells data center operators how much power will be consumed by running a particular AI workload on a certain processor or AI accelerator chip.
Their method produces reliable power estimates in a few seconds, unlike traditional modeling techniques that can take hours or even days to yield results. Moreover, their prediction tool can be applied to a wide range of hardware configurations — even emerging designs that haven’t been deployed yet.
Data center operators could use these estimates to effectively allocate limited resources across multiple AI models and processors, improving energy efficiency. In addition, this tool could allow algorithm developers and model providers to assess potential energy consumption of a new model before they deploy it.
“The AI sustainability challenge is a pressing question we have to answer. Because our estimation method is fast, convenient, and provides direct feedback, we hope it makes algorithm developers and data center operators more likely to think about reducing energy consumption,” says Kyungmi Lee, an MIT postdoc and lead author of a paper on this technique.
She is joined on the paper by Zhiye Song, an electrical engineering and computer science (EECS) graduate student; Eun Kyung Lee and Xin Zhang, research managers at IBM Research and the MIT-IBM Watson AI Lab; Tamar Eilam, IBM Fellow, chief scientist of sustainable computing at IBM Research, and a member of the MIT-IBM Watson AI Lab; and senior author Anantha P. Chandrakasan, MIT provost, Vannevar Bush Professor of Electrical Engineering and Computer Science, and a member of the MIT-IBM Watson AI Lab. The research is being presented this week at the IEEE International Symposium on Performance Analysis of Systems and Software.
Expediting energy estimation
Inside a data center, thousands of powerful graphics processing units (GPUs) perform operations to train and deploy AI models. The power consumption of a particular GPU will vary based on its configuration and the workload it is handling.
Many traditional methods used to predict energy consumption involve breaking a workload into individual steps and emulating how each module inside the GPU is being utilized one step at a time. But AI workloads like model training and data preprocessing are extremely large and can take hours or even days to simulate in this manner.
“As an operator, if I want to compare different algorithms or configurations to find the most energy-efficient manner to proceed, if a single emulation is going to take days, that is going to become very impractical,” Lee says.
To speed up the prediction process, the MIT researchers sought to use less-detailed information that could be estimated faster. They found that AI workloads often have many repeatable patterns. They could use these patterns to generate the information needed for reliable but quick power estimation.
In many cases, algorithm developers write programs to run as efficiently as possible on a GPU. For instance, they use well-structured optimizations to distribute the work across parallel processing cores and move chunks of data around in the most efficient manner.
“These optimizations that software developers use create a regular structure, and that is what we are trying to leverage,” explains Lee.
The researchers developed a lightweight estimation model, called EnergAIzer, that captures the power usage pattern of a GPU from those optimizations.
An accurate assessment
But while their estimation was fast, the researchers found that it didn’t take all energy costs into account. For instance, every time a GPU runs a program, there is a fixed energy cost required for setting up and configurating that program. Then each time the GPU runs an operation on a chunk of data, an additional energy cost must be paid.
Due to fluctuations in the hardware or conflicts in accessing or moving data, a GPU might not be able to use all available bandwidth, slowing operations down and drawing more energy over time.
To include these additional costs and variances, the researchers gathered real measurements from GPUs to generate correction terms they applied to their estimation model.
“This way, we can get a fast estimation that is also very accurate,” she says.
In the end, a user can provide their workload information, like the AI model they want to run and the number and length of user inputs to process, and EnergAIzer will output an energy consumption estimation in a matter of seconds.
The user can also change the GPU configuration or adjust the operating speed to see how such design choices impact the overall power consumption.
When the researchers tested EnergAIzer using real AI workload information from actual GPUs, it could estimate the power consumption with only about 8 percent error, which is comparable to traditional methods that can take hours to produce results.
Their method could also be used to predict the power consumption of future GPUs and emerging device configurations, as long as the hardware doesn’t change drastically in a short amount of time.
In the future, the researchers want to test EnergAIzer on the newest GPU configurations and scale the model up so it can be applied to many GPUs that are collaborating to run a workload.
“To really make an impact on sustainability, we need a tool that can provide a fast energy estimation solution across the stack, for hardware designers, data center operators, and algorithm developers, so they can all be more aware of power consumption. With this tool, we’ve taken one step toward that goal,” Lee says.
This research was funded, in part, by the MIT-IBM Watson AI Lab.
関連記事
SpecMD:予測的専門家プリフェッチングに関する包括的研究
研究者らは、Mixture-of-Experts モデルの性能向上に不可欠な専門家のキャッシュ機構について、既存のハードウェア中心の方策との相互作用を解明するため、標準化された研究手法「SpecMD」を開発した。
TPUが高度なAIワークロードをどのように支えるか
Googleは、TPUがますます要求の高いAIワークロードを処理する仕組みを解説する新動画を発表した。
「AIを活用してより持続可能な世界を実現できるか?」
Microsoft Researchのダグ・バーガー氏と専門家らは、持続可能な未来の実現に向け、技術者や政策担当者が直面する複雑なAI課題を議論し、AI移行を正の成果とする共通理解の醸成を目指している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み