Cappy: 小さなスコアラーで大規模マルチタスク言語モデルを凌駕・強化
Google Research は、大規模言語モデル(LLM)の性能を向上させるための新しい手法「Cappy」を発表し、小さなスコアラーを用いてマルチタスク学習の効率と汎用性を大幅に高めた。
キーポイント
Cappy の基本原理
大規模な生成モデル(LLM)を直接訓練するのではなく、入力された指示に対する回答の質や適切さを評価する「小さなスコアラー」を用いて学習プロセスを強化する手法。
マルチタスク性能の向上
既存の FLAN や T0 などのモデルと比較し、未知のタスクに対する汎化能力や、複雑な指示理解における精度が顕著に改善されたことを実証。
計算コストの削減と効率化
大規模モデル全体を再訓練するのではなく、軽量なスコアラーを活用することで、トレーニングコストを抑えつつ性能を最大化するアプローチを実現。
大規模マルチタスクモデルの運用課題
数十億から数千億パラメータの大規模モデルは計算リソースやメモリ要件が高く、トレーニング・推論のコストが膨大で、各タスクごとにコピーを保持するストレージ問題も生じる。
既存の効率的チューニング手法の限界
プロンプトチューニングやアダプターなどのパラメータ効率化手法はストレージ要件を減らすものの、調整プロセス中に依然として大規模モデルのパラメータに対する逆伝播が必要となりメモリ負荷が高い。
コンテキスト学習と事前知識の必要性
インコンテキストラーニングはパラメータチューニングを回避するが、複雑なタスクや個人化されたタスクに対処するには単一のモデルでのゼロショット実行が困難であり、豊富な事前知識なしには十分なデータがない場合もある。
影響分析・編集コメントを表示
影響分析
本記事は、大規模言語モデルの学習効率化と汎用性向上に対する新たなアプローチを示しており、特に計算資源が限られる状況でのモデル最適化に重要な示唆を与える。Cappy のような「スコアラー駆動」のアプローチは、将来的にはより軽量かつ高性能な AI システムの実装標準となる可能性があり、業界全体の開発コスト削減と性能向上に寄与すると期待される。
編集コメント
大規模モデルの「巨大化」一辺倒だったトレンドに対し、軽量な評価機構で性能を底上げする逆転発想は非常に興味深いです。実用面でのコスト対効果が高い手法として注目すべき研究です。
<span class="byline-author">投稿者: Yun Zhu および Lijuan Liu、ソフトウェアエンジニア、Google Research</span>
<img src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiFNlqVAnwoYdZ97LvC4-ipR6FeOc4o9udsTUtNBBWl5Y4XHclcrz3kTCibizteSBc_xsVLh-pyRiCCNfIzTDHEs7VsJcUMCk0EjUxzvKITKCncdx1y7u9JXGkXM6TyoZY5RhUt2l_up-Us0yIV-0-EUvHsjOlFNSSNgNHlpwK1PAliqcj4gSoLsYXhIi18/s320/Cappy%20hero.jpg" style="display: none;" />
<p>
大規模言語モデル(LLM)の進歩により、様々な自然言語処理(NLP)タスクを命令追従フレームワーク内に統合する新しいパラダイムが生まれました。このパラダイムは、<a href="https://arxiv.org/abs/2110.08207">T0</a>、<a href="https://arxiv.org/abs/2210.11416">FLAN</a>、<a href="https://arxiv.org/abs/2212.12017">OPT-IML</a>などの最近のマルチタスクLLMに代表されます。まず、各タスクがタスク固有のテンプレートに従うマルチタスクデータが収集され、それぞれのラベル付き例は命令(例:<em>"</em>概念を組み合わせて文を作りなさい: スキー、山、スキーヤー<em>"</em>)と対応する応答(例:<em>"</em>スキーヤーが山を滑り降りる<em>"</em>)のペアに変換されます。これらの命令-応答ペアはLLMのトレーニングに使用され、命令を入力として受け取り応答を生成する条件付き生成モデルが出来上がります。さらに、マルチタスクLLMは、まったく新しい命令を理解して解決することで未見のタスクに対処できるため、驚くべきタスクごとの汎化能力を示しています。
</p>
<a name='more'></a>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto;"><tbody><tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhMcacnhPA68XiEskvhExF4SGFh4997UZzwvhYfXt-ReGXtzfGTamLB3LZoYSh8WWuf1dmlBnNAUecAMhrBTOMVF6vxsw3BqY8Ld5xPgSdZY_cywScxxxQ5e6uwhawA5VYDEj6VtSyOTNGZtjdLXieeFV5OLiDk3bnB-xaz4MIbvUO-7RPadk8iQDv3206V/s640/Cappy%20instruction-following.gif" style="margin-left: auto; margin-right: auto;"><img border="0" data-original-height="177" data-original-width="640" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhMcacnhPA68XiEskvhExF4SGFh4997UZzwvhYfXt-ReGXtzfGTamLB3LZoYSh8WWuf1dmlBnNAUecAMhrBTOMVF6vxsw3BqY8Ld5xPgSdZY_cywScxxxQ5e6uwhawA5VYDEj6VtSyOTNGZtjdLXieeFV5OLiDk3bnB-xaz4MIbvUO-7RPadk8iQDv3206V/s16000/Cappy%20instruction-following.gif" /></a></td></tr><tr><td class="tr-caption" style="text-align: center;">マルチタスクLLM(例:FLAN)の命令追従事前トレーニングのデモンストレーション。このパラダイム下での事前トレーニングタスクは、未見のタスクに対する性能を向上させます。</td></tr></tbody></table>
<p>
命令のみを使用して様々なタスクを理解し解決することの複雑さのため、マルチタスクLLMのサイズは通常、数十億パラメータから数千億パラメータ(例:<a href="https://arxiv.org/abs/2210.11416">FLAN-11B</a>、<a href="https://arxiv.org/abs/2110.08207">T0-11B</a>、<a href="https://arxiv.org/abs/2212.12017">OPT-IML-175B</a>)に及びます。その結果、このような巨大なモデルを運用することは重大な課題をもたらします。なぜなら、それらはかなりの計算能力を要求し、GPUやTPUのメモリ容量に多大な要件を課すため、トレーニングと推論が高コストで非効率になるからです。各ダウンストリームタスクに対して固有のLLMコピーを維持するには、広大なストレージが必要です。さらに、最も強力なマルチタスクLLM(例:FLAN-PaLM-540B)はクローズドソースであり、適応させることが不可能です。しかし、実際のアプリケーションでは、単一のマルチタスクLLMを活用して、考えられるすべてのタスクをゼロショット方式で管理することは、特に複雑なタスク、個人用タスク、命令を使って簡潔に定義できないタスクを扱う場合、依然として困難です。一方、ダウンストリームトレーニングデータのサイズは通常、豊富な事前知識を組み込まずにモデルを十分にトレーニングするには不十分です。したがって、ストレージ、メモリ、アクセスの問題を回避しながら、ダウンストリームの教師あり学習でLLMを適応させることは長らく望まれてきました。
</p>
<p>
<a href="https://aclanthology.org/2021.acl-long.353.pdf">プロンプトチューニング</a>や<a href="https://openreview.net/pdf?id=nZeVKeeFYf9">アダプター</a>などの特定の<em>パラメータ効率の良いチューニング</em>戦略は、ストレージ要件を大幅に削減しますが、それらはチューニングプロセス中にLLMパラメータを通じた逆伝播を実行するため、メモリ要求は依然として高く保たれます。さらに、いくつかの<em><a href="https://arxiv.org/pdf/2301.00234.pdf">インコンテキスト学習</a></em>技術は、限られた数の教師あり例を統合することでパラメータチューニングを回避します。
原文を表示
<span class="byline-author">Posted by Yun Zhu and Lijuan Liu, Software Engineers, Google Research</span>
<img src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiFNlqVAnwoYdZ97LvC4-ipR6FeOc4o9udsTUtNBBWl5Y4XHclcrz3kTCibizteSBc_xsVLh-pyRiCCNfIzTDHEs7VsJcUMCk0EjUxzvKITKCncdx1y7u9JXGkXM6TyoZY5RhUt2l_up-Us0yIV-0-EUvHsjOlFNSSNgNHlpwK1PAliqcj4gSoLsYXhIi18/s320/Cappy%20hero.jpg" style="display: none;" />
<p>
Large language model (LLM) advancements have led to a new paradigm that unifies various natural language processing (NLP) tasks within an instruction-following framework. This paradigm is exemplified by recent multi-task LLMs, such as <a href="https://arxiv.org/abs/2110.08207">T0</a>, <a href="https://arxiv.org/abs/2210.11416">FLAN</a>, and <a href="https://arxiv.org/abs/2212.12017">OPT-IML</a>. First, multi-task data is gathered with each task following a task-specific template, where each labeled example is converted into an instruction (e.g., <em>"</em>Put the concepts together to form a sentence: ski, mountain, skier<em>”</em>) paired with a corresponding response (e.g., <em>"</em>Skier skis down the mountain<em>"</em>). These instruction-response pairs are used to train the LLM, resulting in a conditional generation model that takes an instruction as input and generates a response. Moreover, multi-task LLMs have exhibited remarkable task-wise generalization capabilities as they can address unseen tasks by understanding and solving brand-new instructions.
</p>
<a name='more'></a>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto;"><tbody><tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhMcacnhPA68XiEskvhExF4SGFh4997UZzwvhYfXt-ReGXtzfGTamLB3LZoYSh8WWuf1dmlBnNAUecAMhrBTOMVF6vxsw3BqY8Ld5xPgSdZY_cywScxxxQ5e6uwhawA5VYDEj6VtSyOTNGZtjdLXieeFV5OLiDk3bnB-xaz4MIbvUO-7RPadk8iQDv3206V/s640/Cappy%20instruction-following.gif" style="margin-left: auto; margin-right: auto;"><img border="0" data-original-height="177" data-original-width="640" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhMcacnhPA68XiEskvhExF4SGFh4997UZzwvhYfXt-ReGXtzfGTamLB3LZoYSh8WWuf1dmlBnNAUecAMhrBTOMVF6vxsw3BqY8Ld5xPgSdZY_cywScxxxQ5e6uwhawA5VYDEj6VtSyOTNGZtjdLXieeFV5OLiDk3bnB-xaz4MIbvUO-7RPadk8iQDv3206V/s16000/Cappy%20instruction-following.gif" /></a></td></tr><tr><td class="tr-caption" style="text-align: center;">The demonstration of the instruction-following pre-training of multi-task LLMs, e.g., FLAN. Pre-training tasks under this paradigm improves the performance for unseen tasks.</td></tr></tbody></table>
<p>
Due to the complexity of understanding and solving various tasks solely using instructions, the size of multi-task LLMs typically spans from several billion parameters to hundreds of billions (e.g., <a href="https://arxiv.org/abs/2210.11416">FLAN-11B</a>, <a href="https://arxiv.org/abs/2110.08207">T0-11B</a> and <a href="https://arxiv.org/abs/2212.12017">OPT-IML-175B</a>). As a result, operating such sizable models poses significant challenges because they demand considerable computational power and impose substantial requirements on the memory capacities of GPUs and TPUs, making their training and inference expensive and inefficient. Extensive storage is required to maintain a unique LLM copy for each downstream task. Moreover, the most powerful multi-task LLMs (e.g., FLAN-PaLM-540B) are closed-sourced, making them impossible to be adapted. However, in practical applications, harnessing a single multi-task LLM to manage all conceivable tasks in a zero-shot manner remains difficult, particularly when dealing with complex tasks, personalized tasks and those that cannot be succinctly defined using instructions. On the other hand, the size of downstream training data is usually insufficient to train a model well without incorporating rich prior knowledge. Hence, it is long desired to adapt LLMs with downstream supervision while bypassing storage, memory, and access issues.
</p>
<p>
Certain <em>parameter-efficient tuning</em> strategies, including <a href="https://aclanthology.org/2021.acl-long.353.pdf">prompt tuning</a> and <a href="https://openreview.net/pdf?id=nZeVKeeFYf9">adapters</a>, substantially diminish storage requirements, but they still perform back-propagation through LLM parameters during the tuning process, thereby keeping their memory demands high. Additionally, some <em><a href="https://arxiv.org/pdf/2301.00234.pdf">in-context learning</a></em> techniques circumvent parameter tuning by integrating a limited number of supervised examples
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み