事前学習済みLLMの位置埋め込みを削除することでコンテキストを拡張
Sakana AI は、事前学習済み LLM の位置埋め込みを除去する「DroPE」という手法を発表し、高コストな長期コンテキスト微調整なしにゼロショットで文脈長を拡張する技術的ブレイクスルーを示した。
キーポイント
位置埋め込みの役割転換
Transformer の基本前提である RoPE などの明示的位置埋め込みは学習収束には不可欠だが、長文への一般化においてはボトルネックとなるため、推論時にはこれを意図的に除去するアプローチを採用した。
コスト効率の高い拡張手法
元の事前学習予算の 1% 未満のリキャリブレーションでモデルを再調整可能であり、従来の高コストな長期コンテキスト微調整に代わる現実的な解決策となる。
理論的裏付けと実証
NoPE(位置埋め込みなし)は学習が不安定だが RoPE は低周波数の圧縮により意味的注意を歪めるというトレードオフに対し、DroPE は両者の欠点を回避し、LongBench や RULER などのベンチマークで既存手法を上回る性能を発揮した。
オープンソース化とコミュニティへの貢献
論文、コード、インタラクティブなウェブサイトが公開され、現代の LLM における位置符号化の役割を再考するようコミュニティに呼びかけている。
影響分析・編集コメントを表示
影響分析
この技術は、LLM のコンテキスト制限を突破するための従来型の「大規模微調整」という高コストなアプローチに代わる、極めて効率的なパラダイムシフトをもたらす可能性があります。特にリソース制約のある環境や、既存のモデルを迅速に長文タスクに適応させたい実務現場において、即座に採用される重要な技術的転換点となるでしょう。
編集コメント
「位置埋め込みは学習には必要だが、推論時には不要」という逆説的な洞察に基づいたこの手法は、LLM のアーキテクチャ設計に対する根本的な問い直しを促す画期的な成果です。
私たちはDroPEを発表します:事前学習済みLLMのコンテキスト長を拡張するために、その位置埋め込みを除去する手法です!
インタラクティブウェブサイト: https://pub.sakana.ai/DroPE/
論文 (arxiv): https://arxiv.org/abs/2512.12167
コード: https://github.com/SakanaAI/DroPE
概要
大規模な長文コンテキストファインチューニングに通常伴う膨大な計算コストをかけずに、事前学習済みLLMのコンテキスト長を拡張する新手法「DroPE」を公開します。
本研究の中核となる洞察は、Transformerアーキテクチャの根本的な前提に疑問を投げかけるものです。RoPEのような明示的な位置埋め込みは、学習の収束には不可欠ですが、最終的にはモデルがより長い系列へ一般化することを阻む主要なボトルネックとなることを発見しました。
私たちの解決策は極めてシンプルです。位置埋め込みを、アーキテクチャに永続的に必要な要素ではなく、一時的な学習の「足場」として扱うことです。
膨大なコード差分のレビューや法律文書の分析といった実世界のワークフローでは、標準的な事前学習済みモデルの限界を超えるコンテキスト長が要求されます。位置埋め込みなし(NoPE)のモデルは、こうした未見の長さへの一般化性能に優れますが、ゼロから学習させるのが極めて不安定であることが知られています。
本研究では、事前学習中の安定性を確保するために位置埋め込みを利用し、推論時にそれを除去して長さの外挿を可能にすることで、両者の利点を兼ね備えることに成功しました。このアプローチにより、高コストな長文コンテキスト学習を一切行うことなく、シームレスなゼロショットでのコンテキスト拡張が実現します。
私たちは、この効果をさまざまなオフ・ザ・シェルフのオープンソースLLMで実証しました。テストでは、任意のモデルをDroPEで再調整するのに必要なコストは、元の事前学習予算の1%未満です。それにもかかわらず、LongBenchやRULERといった難易度の高いベンチマークにおいて、確立された既存手法を大幅に上回る性能を示しました。
現代のLLMにおける位置エンコーディングの役割についてコミュニティが再考することを促すため、コードと論文全文を公開します。
論文では、このトレードオフに関する理論的分析も提供しています。NoPEトランスフォーマーは勾配消失により注意パターンをゼロから学習するのが困難である一方、標準的なRoPEのスケーリングは低周波数を圧縮することで、必然的に意味的注意を歪めてしまうことを証明します。DroPEは両方の問題を回避します。すなわち、収束のためにはRoPEを利用し、拡張時の意味的シフトを避けるためにそれを除去するのです。
原文を表示
We’re excited to introduce DroPE: Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings!
Interactive Website: https://pub.sakana.ai/DroPE/
Paper (arxiv): https://arxiv.org/abs/2512.12167
Code: https://github.com/SakanaAI/DroPE
Summary
We are releasing a new method called DroPE to extend the context length of pretrained LLMs without the massive compute costs usually associated with long-context fine-tuning.
The core insight of this work challenges a fundamental assumption in Transformer architecture. We discovered that explicit positional embeddings like RoPE are critical for training convergence but eventually become the primary bottleneck preventing models from generalizing to longer sequences.
Our solution is radically simple: We treat positional embeddings as a temporary training scaffold rather than a permanent architectural necessity.
Real-world workflows like reviewing massive code diffs or analyzing legal contracts require context windows that break standard pretrained models. While models without positional embeddings (NoPE) generalize better to these unseen lengths, they are notoriously unstable to train from scratch.
Here, we achieve the best of both worlds by using embeddings to ensure stability during pretraining and then dropping them to unlock length extrapolation during inference. Our approach unlocks seamless zero-shot context extension without any expensive long-context training.
We demonstrated this on a range of off-the-shelf open-source LLMs. In our tests, recalibrating any model with DroPE requires less than 1% of the original pretraining budget, yet it significantly outperforms established methods on challenging benchmarks like LongBench and RULER.
We have released the code and the full paper to encourage the community to rethink the role of positional encodings in modern LLMs.
In the paper, we provide a theoretical analysis of this trade-off. We prove that while NoPE transformers struggle to learn attention patterns from scratch due to vanishing gradients, standard RoPE scaling inevitably warps semantic attention by compressing low frequencies. We show that DroPE sidesteps both issues: utilizing RoPE for convergence, then removing it to avoid semantic shift during extension.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み