大規模言語モデルの能力を向上させる新手法
MIT と MIT-IBM Watson AI Lab が、従来の静的な位置情報符号化に代わり文脈に応答する「PaTH Attention」を提案し、大規模言語モデルの状態追跡と推論能力の限界を突破する画期的な手法を発表した。
キーポイント
既存アーキテクチャの限界
現在の主流であるトランスフォーマーの注意機構(Attention)は、単語の順序や状態変化を追跡する際に理論的・実証的な限界を抱えており、静的な位置符号化(RoPE)では文脈に応じた適応が困難である。
PaTH Attention の新手法
MIT 研究チームが開発した「PaTH Attention」は、単語間の相対距離に依存する固定された符号化ではなく、入力データや文脈に応じて適応的に位置情報を処理する新しい技術である。
状態追跡能力の向上
この新手法により、コード内の変数追跡や条件付きアクションの理解など、AI に求められる「状態追跡(state tracking)」と「逐次推論」の能力を、トランスフォーマーのスケーラビリティを維持しながら大幅に強化できる。
NeurIPS での発表
本研究成果は、Yoon Kim 教授らによって主要な学術会議である NeurIPS で発表され、LLM の推論能力向上に向けた新たな方向性を示した。
影響分析・編集コメントを表示
影響分析
この技術は、大規模言語モデルが単なるテキスト生成だけでなく、複雑な論理的推論や状態管理を必要とするタスクにおいて飛躍的な性能向上を果たす可能性を示唆しています。特にコード生成や高度なデータ分析の分野では、現在の LLM が抱える「順序の誤解」や「文脈の喪失」といった根本的な課題に対する解決策となり得るため、次世代 AI システムの基盤技術として大きな影響を与えるでしょう。
編集コメント
従来の位置符号化の概念を根本から覆すこのアプローチは、LLM の推論能力向上において決定的なブレークスルーとなる可能性があります。実用化までの猶予はあるものの、次世代モデル開発の指針として極めて重要な論文です。
ほとんどの言語は、意味を抽出するために単語の位置と文構造を利用します。例えば、「猫が箱の上に座った」は「箱が猫の上にあった」と同じではありません。財務文書や小説のような長文では、これらの単語の統語構造はおそらく変化していきます。
同様に、人はコード内の変数を追跡したり、条件付きのアクションを含む指示に従ったりするかもしれません。これらは、最先端の人工知能システムに優れた能力を期待される「状態変化」と「逐次推論」の例です。しかし、大規模言語モデル(LLM)において単語の重要性を決定する主要アーキテクチャであるトランスフォーマー内の、既存の最先端アテンションメカニズムには、こうした能力に関して理論的・経験的限界があります。
アテンションメカニズムにより、LLMはクエリや文書の前の部分を参照し、その学習に基づいてどの詳細や単語が最も重要かを判断できます。しかし、このメカニズム単体では単語の順序を理解しません。それは全ての入力単語(すなわちトークン)を同時に「見て」、提示された順序で処理するため、研究者は位置情報をエンコードする技術を開発してきました。これは言語のように高度に構造化された領域では重要です。しかし、主流の位置エンコーディング手法であるロータリーポジションエンコーディング(RoPE)は、シーケンス内のトークン間の相対距離のみを考慮し、入力データに依存しません。これは、例えば前述の例の「猫」と「箱」のように4つ離れた位置にある単語は全て、その相対距離に特有の同じ固定された数学的回転を受け取ることを意味します。
今回、MITおよびMIT-IBMワトソンAI研究所が主導する研究により、「PaTH Attention」と呼ばれるエンコーディング技術が生み出されました。これは、RoPEのように静的ではなく、位置情報を適応的かつ文脈を認識するものとします。
「トランスフォーマーは多くの領域で正確でスケーラブルなモデリングを可能にしますが、状態追跡に関しては限界があります。状態追跡は、我々がAIシステムに求める重要な能力の基盤と考えられる現象のクラスです。ですから、重要な問いはこうです:トランスフォーマーのスケーラビリティと効率性を維持しつつ、どのように状態追跡を可能にできるか?」と、論文の上席著者で電気工学・計算機科学科(EECS)准教授、計算機科学・人工知能研究所(CSAIL)メンバー、MIT-IBMワトソンAI研究所の研究者であるYoon Kim氏は述べています。
この研究に関する新たな論文は、今月初めにニューラル情報処理システム会議(NeurIPS)で発表されました。Kim氏の共著者には、筆頭著者でEECS大学院生かつ元MIT-IBMワトソンAI研究所サマープログラムインターンのSonglin Yang氏、スタンフォード大学のKaiyue Wen氏、マイクロソフトのLiliang Ren氏、IBMリサーチおよびMIT-IBMワトソンAI研究所のYikang Shen氏、Shawn Tan氏、Mayank Mishra氏、Rameswar Panda氏が含まれます。
理解への道
RoPEがトークン間の相対距離に基づいて全ての単語に固定回転を割り当てるのに対し、PaTH Attentionは柔軟で、中間の単語を小さなデータ依存の変換からなる「パス」として扱います。ハウスホルダー反射と呼ばれる数学的操作に基づく各変換は、通過する各トークンの内容に応じて調整される小さな鏡のように機能します。シーケンス内の各ステップは、モデルが後続の情報をどのように解釈するかに影響を与え得ます。累積効果により、システムは単語間の距離だけでなく、意味がパスに沿ってどのように変化するかをモデル化できます。このアプローチにより、トランスフォーマーはエンティティと関係性が時間とともにどう変化するかを追跡し、「位置記憶」の感覚を得ることができます。これは、環境を体験し、それが自身にどう影響するかを感じながら道を歩くようなものです。さらに、チームはハードウェア効率の良いアルゴリズムも開発し、あらゆるトークンペア間のアテンションスコアをより効率的に計算できるようにしました。これにより、PaTH Attentionによる累積的な数学的変換が圧縮され、より小さな計算に分解されるため、GPU上での高速処理と互換性を持ちます。
MIT-IBMの研究者たちはその後、PaTH Attentionの性能を、推論、長文コンテキストベンチマーク、完全なLLM学習を含む、合成的および実世界のタスクで検証し、モデルの時間経過に伴う情報追跡能力が向上するかを確認しました。チームは、多くの気を散らすステップや多段階想起テストがある中で、最新の「書き込み」コマンドに従う能力をテストしました。これらのタスクは、RoPEのような標準的な位置エンコーディング手法では困難です。研究者たちはまた、中規模のLLMを学習させ、他の手法と比較しました。PaTH Attentionはパープレキシティ(困惑度)を改善し、学習されていない推論ベンチマークにおいて他の手法を上回りました。さらに、数万トークン規模の入力に対する検索、推論、安定性も評価しました。PaTH Attentionは一貫して文脈認識能力を発揮しました。
「トランスフォーマーの限界をテストするために設計された診断タスクと、実世界の言語モデリングタスクの両方において、我々の新しいアプローチは既存のアテンションメカニズムの効率性を維持しつつ、それを上回る性能を示すことができました」とKim氏は述べています。さらに、「このようなPaTHのようなデータ依存の位置エンコーディングが、生物学のような構造化された領域、例えばタンパク質やDNAの[分析]において、トランスフォーマーの性能を向上させるかどうかを知ることに興奮しています。」
より大きく、より効率的に考える
研究者たちは次に、PaTH Attentionメカニズムが、意思決定において古い情報や関連性の低い情報を無視するという、人間の認知により近い形で動作した場合の性能を調査しました。このため、彼らはPaTH Attentionを、モデルが選択的に「忘れる」ことを可能にする別の位置エンコーディング手法であるForgetting Transformer(FoX)と組み合わせました。その結果生まれたPaTH-FoXシステムは、データ依存の方法で情報の重みを減衰させる方法を追加し、推論、長文コンテキスト理解、言語モデリングベンチマーク全体で強力な結果を達成しました。このようにして、PaTH Attentionはトランスフォーマーアーキテクチャの表現力を拡張します。
Kim氏は、このような研究はAIにおける「次の大きな進歩」を開発するためのより広範な努力の一部であると述べています。彼は、深層学習と生成AI革命の両方の主要な推進力は、「畳み込み層、RNN [リカレントニューラルネットワーク]層」、そして近年ではトランスフォーマーのような「広範な領域に適用可能な汎用ビルディングブロック」の創造であったと説明します。将来を見据え、Kim氏は、精度、表現力、柔軟性、ハードウェアスケーラビリティといった考慮事項が従来重要であり、今後も不可欠であると指摘します。彼の言葉を借りれば、「現代のアーキテクチャ研究の中核的な事業は、表現力を維持または向上させながら、同時にスケーラブルでもある新たなプリミティブを考案することです。」
この研究は、MIT-IBMワトソンAI研究所およびシュミット・サイエンスAI2050プログラムの一部支援を受けています。
原文を表示
Most languages use word position and sentence structure to extract meaning. For example, “The cat sat on the box,” is not the same as “The box was on the cat.” Over a long text, like a financial document or a novel, the syntax of these words likely evolves.
Similarly, a person might be tracking variables in a piece of code or following instructions that have conditional actions. These are examples of state changes and sequential reasoning that we expect state-of-the-art artificial intelligence systems to excel at; however, the existing, cutting-edge attention mechanism within transformers — the primarily architecture used in large language models (LLMs) for determining the importance of words — has theoretical and empirical limitations when it comes to such capabilities.
An attention mechanism allows an LLM to look back at earlier parts of a query or document and, based on its training, determine which details and words matter most; however, this mechanism alone does not understand word order. It “sees” all of the input words, a.k.a. tokens, at the same time and handles them in the order that they’re presented, so researchers have developed techniques to encode position information. This is key for domains that are highly structured, like language. But the predominant position-encoding method, called rotary position encoding (RoPE), only takes into account the relative distance between tokens in a sequence and is independent of the input data. This means that, for example, words that are four positions apart, like “cat” and “box” in the example above, will all receive the same fixed mathematical rotation specific to that relative distance.
Now research led by MIT and the MIT-IBM Watson AI Lab has produced an encoding technique known as “PaTH Attention” that makes positional information adaptive and context-aware rather than static, as with RoPE.
“Transformers enable accurate and scalable modeling of many domains, but they have these limitations vis-a-vis state tracking, a class of phenomena that is thought to underlie important capabilities that we want in our AI systems. So, the important question is: How can we maintain the scalability and efficiency of transformers, while enabling state tracking?” says the paper’s senior author Yoon Kim, an associate professor in the Department of Electrical Engineering and Computer Science (EECS), a member of the Computer Science and Artificial Intelligence Laboratory (CSAIL), and a researcher with the MIT-IBM Watson AI Lab.
A new paper on this work was presented earlier this month at the Conference on Neural Information Processing Systems (NeurIPS). Kim’s co-authors include lead author Songlin Yang, an EECS graduate student and former MIT-IBM Watson AI Lab Summer Program intern; Kaiyue Wen of Stanford University; Liliang Ren of Microsoft; and Yikang Shen, Shawn Tan, Mayank Mishra, and Rameswar Panda of IBM Research and the MIT-IBM Watson AI Lab.
Path to understanding
Instead of assigning every word a fixed rotation based on relative distance between tokens, as RoPE does, PaTH Attention is flexible, treating the in-between words as a path made up of small, data-dependent transformations. Each transformation, based on a mathematical operation called a Householder reflection, acts like a tiny mirror that adjusts depending on the content of each token it passes. Each step in a sequence can influence how the model interprets information later on. The cumulative effect lets the system model how the meaning changes along the path between words, not just how far apart they are. This approach allows transformers to keep track of how entities and relationships change over time, giving it a sense of “positional memory.” Think of this as walking a path while experiencing your environment and how it affects you. Further, the team also developed a hardware-efficient algorithm to more efficiently compute attention scores between every pair of tokens so that the cumulative mathematical transformation from PaTH Attention is compressed and broken down into smaller computations so that it’s compatible with fast processing on GPUs.
The MIT-IBM researchers then explored PaTH Attention’s performance on synthetic and real-world tasks, including reasoning, long-context benchmarks, and full LLM training to see whether it improved a model’s ability to track information over time. The team tested its ability to follow the most recent “write” command despite many distracting steps and multi-step recall tests, tasks that are difficult for standard positional encoding methods like RoPE. The researchers also trained mid-size LLMs and compared them against other methods. PaTH Attention improved perplexity and outcompeted other methods on reasoning benchmarks it wasn’t trained on. They also evaluated retrieval, reasoning, and stability with inputs of tens of thousands of tokens. PaTH Attention consistently proved capable of content-awareness.
“We found that both on diagnostic tasks that are designed to test the limitations of transformers and on real-world language modeling tasks, our new approach was able to outperform existing attention mechanisms, while maintaining their efficiency,” says Kim. Further, “I’d be excited to see whether these types of data-dependent position encodings, like PATH, improve the performance of transformers on structured domains like biology, in [analyzing] proteins or DNA.”
Thinking bigger and more efficiently
The researchers then investigated how the PaTH Attention mechanism would perform if it more similarly mimicked human cognition, where we ignore old or less-relevant information when making decisions. To do this, they combined PaTH Attention with another position encoding scheme known as the Forgetting Transformer (FoX), which allows models to selectively “forget.” The resulting PaTH-FoX system adds a way to down-weight information in a data-dependent way, achieving strong results across reasoning, long-context understanding, and language modeling benchmarks. In this way, PaTH Attention extends the expressive power of transformer architectures.
Kim says research like this is part of a broader effort to develop the “next big thing” in AI. He explains that a major driver of both the deep learning and generative AI revolutions has been the creation of “general-purpose building blocks that can be applied to wide domains,” such as “convolution layers, RNN [recurrent neural network] layers,” and, most recently, transformers. Looking ahead, Kim notes that considerations like accuracy, expressivity, flexibility, and hardware scalability have been and will be essential. As he puts it, “the core enterprise of modern architecture research is trying to come up with these new primitives that maintain or improve the expressivity, while also being scalable.”
This work was supported, in part, by the MIT-IBM Watson AI Lab and the AI2050 program at Schmidt Sciences.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み