新手法によりLLM学習効率が向上
アイドル時間を活用して学習速度を2倍に向上させつつ精度を維持する手法が開発された。
キーポイント
MITなどの研究者が、推論型LLMの学習効率を向上させる新手法を開発
アイドル状態の計算リソースを活用して学習速度を2倍に向上させつつ精度を維持
小規模モデルを適応的に訓練・展開し、大規模推論モデルの出力を予測・検証する仕組み
複雑な問題解決に特化した推論型LLMの開発コストとエネルギー消費を削減する可能性
金融トレンド予測や電力グリッドのリスク検出など実用的応用への展開が期待
影響分析・編集コメントを表示
影響分析
この手法は、計算集約的な推論型LLMの開発における主要なボトルネックである学習効率問題に直接対処しており、AI研究開発のコスト削減と環境負荷軽減に貢献する可能性がある。特に複雑なタスクを扱う次世代AIシステムの実用化を加速させる重要な技術的進展と言える。
編集コメント
計算リソースの無駄を活用するという発想が秀逸で、AI開発の持続可能性向上に寄与する可能性が高い。業界全体のトレーニングコスト削減への波及効果に注目したい。
Press Inquiries Press Contact:
MITニュースオフィスウェブサイトでダウンロード可能な画像は、非営利団体、報道機関、一般向けにクリエイティブ・コモンズ表示-非営利-改変禁止ライセンスの下で提供されています。提供された画像は、サイズにトリミングすること以外、改変することはできません。画像を複製する際はクレジット表記が必要です。以下に表記がない場合は、"MIT"とクレジットしてください。
Close
キャプション: 大規模言語モデルの学習効率を向上させる新手法: アイドル状態の計算時間を活用することで、精度を維持しながらモデル学習の速度を2倍にできる。 クレジット: 画像: MIT News; iStock
キャプション: 「推論が推論需要を駆動する主要なワークロードであり続ける中、[胡]慶昊のTLTは、これらの推論モデルを学習する際の計算ボトルネックに対処する素晴らしい研究です。この手法は効率的なAIコンピューティングの文脈において非常に役立つと思います」と、ソン・ハンは述べている。 クレジット: 画像: Adam Glanzman Previous image Next image
推論型大規模言語モデル(LLM)は、複雑な問題をより小さなステップの連続に分解して解決するように設計されている。これらの強力なモデルは、高度なプログラミングや多段階の計画立案といった困難なタスクに特に優れている。
しかし、推論モデルの開発には、学習プロセスにおける非効率性のため、膨大な計算量とエネルギーが要求される。少数の高性能プロセッサが複雑なクエリを処理し続けている間、グループ内の他のプロセッサはアイドル状態のままなのである。
MITなどの研究者らは、この計算上のダウンタイムを利用して推論モデルの学習を効率的に加速する方法を発見した。
彼らの新手法は、より小さく高速なモデルを自動的に学習させ、より大きな推論LLMの出力を予測させ、それを大きなモデルが検証するというものだ。これにより推論モデルが行わなければならない作業量が減り、学習プロセスが加速する。
このシステムの鍵は、一部のプロセッサがアイドル状態のときにのみ起動するように、小さなモデルを適応的に学習・展開できる能力にある。本来なら無駄になっていたであろう計算リソースを活用することで、追加のオーバーヘッドを発生させることなく学習を加速する。
複数の推論LLMでテストしたところ、この手法は精度を維持しながら学習速度を2倍にした。これは、金融トレンドの予測や電力グリッドのリスク検出などのアプリケーション向けに高度なLLMを開発する際のコスト削減とエネルギー効率向上につながる可能性がある。
「人々はより複雑なタスクを処理できるモデルを求めています。しかし、それがモデル開発の目標であるなら、効率性を優先する必要があります。私たちはこの問題に対するロスレスな解決策を見つけ、実際に非常に劇的な高速化をもたらすことができるフルスタックシステムを開発しました」と、この技術に関する論文の共筆頭著者であるMITのポスドク研究員、胡慶昊は述べている。
論文の共著者には、筆頭共著者で電気工学・計算機科学(EECS)大学院生のShang Yang氏、EECS大学院生のJunxian Guo氏、上席著者でEECS准教授、Research Laboratory of Electronicsメンバー、NVIDIA Distinguished Scientistのソン・ハン氏のほか、NVIDIA、ETH Zurich、MIT-IBM Watson AI Lab、マサチューセッツ大学アマースト校の研究者らが名を連ねている。この研究は、ACM International Conference on Architectural Support for Programming Languages and Operating Systemsで発表される予定である。
学習のボトルネック
開発者は、推論LLMが自身の批判的思考プロセスにおける誤りを特定し修正できるようにしたいと考えている。この能力により、標準的なLLMではつまずいてしまうような複雑なクエリにも正確に答えられるようになる。
このスキルを教えるために、開発者は強化学習(RL)と呼ばれる技術を用いて推論LLMを学習させる。モデルはクエリに対して複数の可能性のある回答を生成し、最良の候補に対して報酬を受け取り、トップの回答に基づいて更新される。モデルが学習するにつれ、これらのステップが何千回も繰り返される。
しかし研究者らは、ロールアウトと呼ばれる複数の回答を生成するプロセスが、RL学習に必要な実行時間の最大85%を消費する可能性があることを発見した。
「モデルの更新 ― これが実際の『学習』部分です ― は比較してごくわずかな時間しか消費しません」と胡氏は言う。
このボトルネックは、標準的なRLアルゴリズムでは、学習グループ内のすべてのプロセッサが次のステップに進む前に、それぞれの応答を終了しなければならないために発生する。非常に長い応答を処理しているプロセッサがあると、より短い応答を生成した他のプロセッサは、それらが終了するのを待たなければならない。
「私たちの目標は、このアイドル時間を、無駄なコストを一切発生させることなく高速化に変えることでした」と胡氏は付け加える。
彼らは、既存の技術である投機的デコードを用いて処理を高速化しようと考えた。投機的デコードでは、ドラフターと呼ばれるより小さなモデルを学習させ、より大きなモデルの将来の出力を迅速に推測させる。
大きなモデルはドラフターの推測を検証し、受け入れた応答が学習に使用される。
大きなモデルは各出力を順番に生成するのではなく、ドラフターのすべての推測を一度に検証できるため、プロセスが加速する。
適応型ソリューション
しかし、投機的デコードでは、ドラフターモデルは通常一度だけ学習され、静的(変化しない)のままである。これにより、推論モデルが学習中に何千回も更新される強化学習には、この技術が実用的ではなくなる。
静的なドラフターは、数ステップ後にはすぐに陳腐化し役に立たなくなるだろう。
この問題を克服するために、研究者らは「Taming the Long Tail」(TLT)と呼ばれる柔軟なシステムを作り出した。
TLTの最初の部分は適応型ドラフタートレーナーであり、アイドル状態のプロセッサの空き時間を利用して、ドラフターモデルをその場で学習させ、追加の計算リソースを使うことなく対象モデルとよく整合する状態に保つ。
第二の構成要素である適応型ロールアウトエンジンは、投機的デコードを管理し、新たな入力のバッチごとに最適な戦略を自動的に選択する。このメカニズムは、ドラフトモデルによって処理される入力の数や検証中に対象モデルによって受け入れられる入力の数など、学習ワークロードの特徴に基づいて投機的デコードの構成を変更する。
さらに、研究者らはドラフトモデルを軽量に設計し、迅速に学習できるようにした。TLTは推論モデルの学習プロセスの一部のコンポーネントを再利用してドラフターを学習させるため、加速にさらなる効果をもたらす。
「一部のプロセッサが短いクエリを終了してアイドル状態になるとすぐに、私たちはそれらを、ロールアウトプロセスで使用しているのと同じデータを使ってドラフトモデルの学習に切り替えます。重要なメカニズムは私たちの適応型投機的デコードです。これがなければこれらの効果は得られません」と胡氏は言う。
彼らはTLTを、実世界のデータセットを用いて学習された複数の推論LLMでテストした。このシステムは各モデルの精度を維持しながら、学習を70%から210%加速した。
追加の利点として、小さなドラフターモデルは、無料の副産物として効率的なデプロイに容易に利用できる。
将来、研究者らはTLTをより多くの種類の学習および推論フレームワークに統合し、このアプローチを用いて加速できる新しい強化学習の応用例を見つけたいと考えている。
「推論が推論需要を駆動する主要なワークロードであり続ける中、慶昊のTLTは、これらの推論モデルを学習する際の計算ボトルネックに対処する素晴らしい研究です。この手法は効率的なAIコンピューティングの文脈において非常に役立つと思います」とハン氏は述べている。
この研究は、MIT-IBM Watson AI Lab、MIT AI Hardware Program、MIT Amazon Science Hub、Hyundai Motor Company、米国国立科学財団の資金提供を受けている。
Share this news article on:
論文: "Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter" Related Links
Research Laborat
原文を表示
Press Inquiries Press Contact:
Images for download on the MIT News office website are made available to non-commercial entities, press and the general public under a Creative Commons Attribution Non-Commercial No Derivatives license. You may not alter the images provided, other than to crop them to size. A credit line must be used when reproducing images; if one is not provided below, credit the images to "MIT."
Close
Caption: A new method could increase the training efficiency of large language models: By leveraging idle computing time, it can double the speed of model training while preserving accuracy. Credits: Image: MIT News; iStock
Caption: “As reasoning continues to become the major workload driving the demand for inference, Qinghao [Hu]’s TLT is great work to cope with the computation bottleneck of training these reasoning models. I think this method will be very helpful in the context of efficient AI computing,” Song Han says. Credits: Image: Adam Glanzman Previous image Next image
Reasoning large language models (LLMs) are designed to solve complex problems by breaking them down into a series of smaller steps. These powerful models are particularly good at challenging tasks like advanced programming and multistep planning.
But developing reasoning models demands an enormous amount of computation and energy due to inefficiencies in the training process. While a few of the high-power processors continuously work through complicated queries, others in the group sit idle.
Researchers from MIT and elsewhere found a way to use this computational downtime to efficiently accelerate reasoning-model training.
Their new method automatically trains a smaller, faster model to predict the outputs of the larger reasoning LLM, which the larger model verifies. This reduces the amount of work the reasoning model must do, accelerating the training process.
The key to this system is its ability to train and deploy the smaller model adaptively, so it kicks in only when some processors are idle. By leveraging computational resources that would otherwise have been wasted, it accelerates training without incurring additional overhead.
When tested on multiple reasoning LLMs, the method doubled the training speed while preserving accuracy. This could reduce the cost and increase the energy efficiency of developing advanced LLMs for applications such as forecasting financial trends or detecting risks in power grids.
“People want models that can handle more complex tasks. But if that is the goal of model development, then we need to prioritize efficiency. We found a lossless solution to this problem and then developed a full-stack system that can deliver quite dramatic speedups in practice,” says Qinghao Hu, an MIT postdoc and co-lead author of a paper on this technique.
He is joined on the paper by co-lead author Shang Yang, an electrical engineering and computer science (EECS) graduate student; Junxian Guo, an EECS graduate student; senior author Song Han, an associate professor in EECS, member of the Research Laboratory of Electronics and a distinguished scientist of NVIDIA; as well as others at NVIDIA, ETH Zurich, the MIT-IBM Watson AI Lab, and the University of Massachusetts at Amherst. The research will be presented at the ACM International Conference on Architectural Support for Programming Languages and Operating Systems.
Training bottleneck
Developers want reasoning LLMs to identify and correct mistakes in their critical thinking process. This capability allows them to ace complicated queries that would trip up a standard LLM.
To teach them this skill, developers train reasoning LLMs using a technique called reinforcement learning (RL). The model generates multiple potential answers to a query, receives a reward for the best candidate, and is updated based on the top answer. These steps repeat thousands of times as the model learns.
But the researchers found that the process of generating multiple answers, called rollout, can consume as much as 85 percent of the execution time needed for RL training.
“Updating the model — which is the actual ‘training’ part — consumes very little time by comparison,” Hu says.
This bottleneck occurs in standard RL algorithms because all processors in the training group must finish their responses before they can move on to the next step. Because some processors might be working on very long responses, others that generated shorter responses wait for them to finish.
“Our goal was to turn this idle time into speedup without any wasted costs,” Hu adds.
They sought to use an existing technique, called speculative decoding, to speed things up. Speculative decoding involves training a smaller model called a drafter to rapidly guess the future outputs of the larger model.
The larger model verifies the drafter’s guesses, and the responses it accepts are used for training.
Because the larger model can verify all the drafter’s guesses at once, rather than generating each output sequentially, it accelerates the process.
An adaptive solution
But in speculative decoding, the drafter model is typically trained only once and remains static. This makes the technique infeasible for reinforcement learning, since the reasoning model is updated thousands of times during training.
A static drafter would quickly become stale and useless after a few steps.
To overcome this problem, the researchers created a flexible system known as “Taming the Long Tail,” or TLT.
The first part of TLT is an adaptive drafter trainer, which uses free time on idle processors to train the drafter model on the fly, keeping it well-aligned with the target model without using extra computational resources.
The second component, an adaptive rollout engine, manages speculative decoding to automatically select the optimal strategy for each new batch of inputs. This mechanism changes the speculative decoding configuration based on the training workload features, such as the number of inputs processed by the draft model and the number of inputs accepted by the target model during verification.
In addition, the researchers designed the draft model to be lightweight so it can be trained quickly. TLT reuses some components of the reasoning model training process to train the drafter, leading to extra gains in acceleration.
“As soon as some processors finish their short queries and become idle, we immediately switch them to do draft model training using the same data they are using for the rollout process. The key mechanism is our adaptive speculative decoding — these gains wouldn’t be possible without it,” Hu says.
They tested TLT across multiple reasoning LLMs that were trained using real-world datasets. The system accelerated training between 70 and 210 percent while preserving the accuracy of each model.
As an added bonus, the small drafter model could readily be utilized for efficient deployment as a free byproduct.
In the future, the researchers want to integrate TLT into more types of training and inference frameworks and find new reinforcement learning applications that could be accelerated using this approach.
“As reasoning continues to become the major workload driving the demand for inference, Qinghao’s TLT is great work to cope with the computation bottleneck of training these reasoning models. I think this method will be very helpful in the context of efficient AI computing,” Han says.
This work is funded by the MIT-IBM Watson AI Lab, the MIT AI Hardware Program, the MIT Amazon Science Hub, Hyundai Motor Company, and the National Science Foundation.
Share this news article on:
Paper: “Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter” Related Links
Research Laboratory of Electronics
Department of Electrical Engineering and Computer Science
School of Engineering
MIT Schwarzman College of Computing
MIT-IBM Watson AI Lab
Computer science and technology
Artificial intelligence
Machine learning
Research Laboratory of Electronics
Electrical engineering and computer science (EECS)
School of Engineering
MIT Schwarzman College of Computing
MIT-IBM Watson AI Lab
National Science Foundation (NSF)
Related Articles
AI tool generates high-quality images faster than state-of-the-art approaches



関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み