MIT研究者が「SEAL」を発表:自己改善型AIへの新たな一歩
MIT が発表した「SEAL」フレームワークは、大規模言語モデルが自身でトレーニングデータを生成・編集し、強化学習を通じて重みを更新する自己進化型 AI の実現に向けた画期的な一歩である。
キーポイント
SEAL フレームワークの核心機能
LLM がコンテキスト内のデータに基づいて自身でトレーニングデータを生成し、強化学習を用いて重みを直接更新する「自己編集(self-editing)」メカニズムを採用している。
強化学習による評価機構
モデルの自己編集プロセスは強化学習で学習され、その報酬(リワード)は更新後のモデルが下流タスクでどの程度性能を発揮するかという実測値に基づいて決定される。
業界全体における文脈
本発表は、Sakana AI や CMU などの他研究機関による自己進化系プロジェクトや、OpenAI のサム・アルトマン CEO が語る「ソフトシンギュラリティ」のビジョンと相まって、AI 分野での自己進化ブームを象徴する出来事となっている。
実用化への道筋
従来の製造プロセスに依存していたロボットや AI システムが、将来的には供給チェーン全体を自律的に管理し、さらに多くのロボットや半導体施設を建設・運営する可能性を示唆している。
SEAL の二重ループ構造とメタ学習
SEAL は自己編集生成を最適化する外側の強化学習ループと、その編集でモデルを更新する内側の勾配降下ループからなるメタ学習フレームワークです。
ReST^EM を採用した安定したトレーニング手法
従来の PPO や GRPO が不安定だったため、正の報酬を得た候補のみを強化するフィルタリングベースの ReST^EM 法が採用され、期待最大化(EM)プロセスとして機能します。
知識統合と few-shot 学習での実証
記事は SEAL が、記事からの情報をモデルに統合する「知識統合」と、少数の例で新しいタスクに適応する「few-shot 学習」の両ドメインで有効であることを示しています。
影響分析・編集コメントを表示
影響分析
このニュースは、AI モデルが静的なパラメータから動的に自己更新する能力を持つ「生きているモデル」への転換点を示しており、長期的には AI の進化速度を人間が制御できないレベルまで加速させる可能性を秘めている。特に強化学習による評価基準の明確化は、理論的な可能性から実用的なシステム構築へと研究のフェーズをシフトさせた重要な出来事である。
編集コメント
MIT の SEAL は、単なる理論的な論文発表にとどまらず、AI が自律的に進化するための具体的なアルゴリズムと評価基準を提示した点で極めて重要です。これは、今後数年間で AI エコシステムが「人間によるトレーニング」から「AI による自己進化」へとパラダイムシフトする兆候を示す決定的な証拠と言えます。
AI の自己改善という概念は、最近の研究界隈ではホットトピックとなっており、多数の論文が発表される中、OpenAI のサム・アルトマン CEO といった著名な人物も、自己進化型知能システムの未来について言及しています。さて、MIT から「Self-Adapting Language Models」と題された新しい論文で、SEAL(Self-Adapting LLMs)という新たなフレームワークが紹介されました。これは大規模言語モデル(LLM: Large Language Model)が自身の重みを更新することを可能にする画期的な枠組みです。この進展は、真に自己進化型の AI を実現するための重要な一歩として捉えられています。
昨日発表された研究論文はすでに Hacker News 上で議論を巻き起こしており、大きな注目を集めています。SEAL は、LLM が「自己編集(self-editing)」を通じて独自のトレーニングデータを生成し、その新しい入力に基づいて自身の重みを更新する方法を提案しています。重要なのは、この自己編集プロセスが強化学習(Reinforcement Learning)によって学習される点です。報酬機構は、更新後のモデルの downstream パフォーマンス(下流タスクでの性能)に紐付けられています。
この論文の発表タイミングは、AI の自己進化に関する関心が最近急増していることを考えると特に注目すべきものです。今月初めには、他のいくつかの研究も注目を集めました。それらには、Sakana AI やブリティッシュコロンビア大学の「Darwin-Gödel Machine (DGM)」、カーネギーメロン大学の「Self-Rewarding Training (SRT)」、上海交通大学のマルチモーダル大モデルにおける継続的な自己改善のための「MM-UPT」フレームワーク、そして香港中文大学と vivo の共同による「UI-Genie」自己改善フレームワークが含まれます。
さらに話題を盛り上げるかのように、OpenAI のCEOであるサム・アルトマン氏は最近のブログ記事「The Gentle Singularity」の中で、自己進化型 AI とロボットが共存する未来へのビジョンを共有しました。彼は、初期の数億台のヒューマノイドロボットには従来の製造プロセスが必要となる一方で、それらがその後「より多くのロボットを構築するためのサプライチェーン全体を運営し、それがさらにチップ製造施設やデータセンターなどを構築できる」と主張しています。これに続く形で、@VraserX によるツイートが投稿され、OpenAI の内部関係者が同社ですでに再帰的自己進化型 AI を社内運用しているという内容でした。この主張は、その真偽を巡る広範な議論を引き起こしました。
OpenAI の内部開発の詳細がどうあれ、MIT の SEAL に関する論文は、AI が自己進化へと向かって進歩していることを示す具体的な証拠を提供するものです。
SEAL の理解:自己適応型言語モデル
SEAL の核となるアイデアは、言語モデルが新しいデータに遭遇した際に、独自の合成データを生成し、自己編集を通じてパラメータを最適化することで、自らを改善できるようにすることです。このモデルの学習目標は、モデル内の文脈内で提供されたデータを用いて、これらの自己編集(SE)を直接生成することにあります。
これらの自己編集の生成は、強化学習を通じて学習されます。生成された自己編集が適用された結果、対象タスクのパフォーマンスが向上した場合に、モデルは報酬を受け取ります。したがって、SEAL は 2 つのネストされたループを持つアルゴリズムとして概念化できます。すなわち、自己編集の生成を最適化する外側の強化学習(RL)ループと、生成された自己編集を用いて勾配降下法でモデルを更新する内側の更新ループです。
この手法は、メタ学習の一形態と見なすことができます。ここで焦点となるのは、メタ学習的なアプローチにおいていかに効果的な自己編集を生成するかという点です。
一般的なフレームワーク
SEAL は、単一のタスクインスタンス (C,τ) を基盤として動作します。ここで C はタスクに関連する文脈情報であり、τ はモデルの適応性を評価するための下流評価を定義します。例えば、知識統合タスクでは、C はモデルの内部知識に統合すべき文章となり、τ はその文章に関する一連の質問セットとなります。
C が与えられた場合、モデルは自己編集 (SE) を生成し、これを教師あり微調整 (SFT: supervised fine-tuning) によってパラメータ更新に用います:θ′←SFT(θ,SE)。この自己編集生成の最適化には強化学習が用いられます。具体的には、モデルが行動(SE の生成)を実行し、LMθ′がτ上で示すパフォーマンスに基づいて報酬 r を受け取り、期待される報酬を最大化するように方策を更新します。
研究者らは、GRPO や PPO といった従来のオンライン方策法では訓練が不安定になることを発見しました。その結果、DeepMind の論文から引用された、より単純でフィルタリングベースの行動模倣手法である ReST^EM を採用することにしました。この方法は、期待値最大化 (EM: Expectation-Maximization) プロセスと見なすことができます。ここで E ステップでは現在のモデル方策から候補出力をサンプリングし、M ステップでは正の報酬をもたらすサンプルのみを選択して教師あり微調整によって強化します。
論文ではまた、現在の実装では単一のモデルが自己編集の生成と学習の両方の役割を担っているものの、これらの役割は「ティーチャー・学生」構成において分離可能であるとも指摘しています。
特定ドメインにおける SEAL の具体化
MIT チームは、知識統合と Few-shot learning(少サンプル学習)という 2 つの特定のドメインで SEAL を具体化しました。
知識統合:ここでは、記事からの情報をモデルの重み effectively に統合することが目的です。
Few-Shot Learning(少サンプル学習):これは、モデルが非常に少ない例で新しいタスクに適応するプロセスを指します。
実験結果
Few-shot learning と知識統合の両方における実験結果は、SEAL フレームワークの有効性を示しています。
Few-shot learning において、Llama-3.2-1B-Instruct モデルを使用した場合、SEAL は適応成功率を大幅に向上させ、72.5% を達成しました。これは、RL(強化学習)トレーニングなしの基本的な自己編集を使用するモデルの 20% や、適応を行わない場合の 0% と比較して顕著です。まだ「Oracle TTT」(理想化されたベースライン)には及びませんが、これは実質的な進歩を示しています。
知識統合においては、より大規模な Qwen2.5-7B モデルを使用して SQuAD 記事からの新しい事実を統合しましたが、SEAL は一貫してベースライン手法を上回りました。ベースとなる Qwen-2.5-7B モデルから合成されたデータでトレーニングを行うだけでも顕著な改善が見られ、その後の強化学習によりさらにパフォーマンスが向上しました。精度も外部の RL 反復を通じて急速に改善し、わずか 2 回の反復で GPT-4.1 で生成されたデータを使用する設定を上回ることもありました。
論文からの定性的な例は、強化学習がより詳細な自己編集の生成につながり、結果としてパフォーマンスが向上することを示しています。
有望である一方で、研究者たちは SEAL フレームワークにはいくつかの限界があることも認めています。これには、壊滅的忘却(catastrophic forgetting)、計算オーバーヘッド、文脈依存の評価に関する側面が含まれます。これらの点については、オリジナル論文で詳細に議論されています。
オリジナル論文:https://arxiv.org/pdf/2506.10943
プロジェクトサイト:https://jyopari.github.io/posts/seal
Github リポジトリ:https://github.com/Continual-Intelligence/SEAL
「MIT 研究者が自己改善型 AI への新たな一歩となる『SEAL』を発表」という投稿は、Synced に初めて掲載されました。
原文を表示
The concept of AI self-improvement has been a hot topic in recent research circles, with a flurry of papers emerging and prominent figures like OpenAI CEO Sam Altman weighing in on the future of self-evolving intelligent systems. Now, a new paper from MIT, titled “Self-Adapting Language Models,” introduces SEAL (Self-Adapting LLMs), a novel framework that allows large language models (LLMs) to update their own weights. This development is seen as another significant step towards the realization of truly self-evolving AI.
The research paper, published yesterday, has already ignited considerable discussion, including on Hacker News. SEAL proposes a method where an LLM can generate its own training data through “self-editing” and subsequently update its weights based on new inputs. Crucially, this self-editing process is learned via reinforcement learning, with the reward mechanism tied to the updated model’s downstream performance.
The timing of this paper is particularly notable given the recent surge in interest surrounding AI self-evolution. Earlier this month, several other research efforts garnered attention, including Sakana AI and the University of British Columbia’s “Darwin-Gödel Machine (DGM),” CMU’s “Self-Rewarding Training (SRT),” Shanghai Jiao Tong University’s “MM-UPT” framework for continuous self-improvement in multimodal large models, and the “UI-Genie” self-improvement framework from The Chinese University of Hong Kong in collaboration with vivo.
Adding to the buzz, OpenAI CEO Sam Altman recently shared his vision of a future with self-improving AI and robots in his blog post, “The Gentle Singularity.” He posited that while the initial millions of humanoid robots would need traditional manufacturing, they would then be able to “operate the entire supply chain to build more robots, which can in turn build more chip fabrication facilities, data centers, and so on.” This was quickly followed by a tweet from @VraserX, claiming an OpenAI insider revealed the company was already running recursively self-improving AI internally, a claim that sparked widespread debate about its veracity.
Regardless of the specifics of internal OpenAI developments, the MIT paper on SEAL provides concrete evidence of AI’s progression towards self-evolution.
Understanding SEAL: Self-Adapting Language Models
The core idea behind SEAL is to enable language models to improve themselves when encountering new data by generating their own synthetic data and optimizing their parameters through self-editing. The model’s training objective is to directly generate these self-edits (SEs) using data provided within the model’s context.
The generation of these self-edits is learned through reinforcement learning. The model is rewarded when the generated self-edits, once applied, lead to improved performance on the target task. Therefore, SEAL can be conceptualized as an algorithm with two nested loops: an outer reinforcement learning (RL) loop that optimizes the generation of self-edits, and an inner update loop that uses the generated self-edits to update the model via gradient descent.
This method can be viewed as an instance of meta-learning, where the focus is on how to generate effective self-edits in a meta-learning fashion.
A General Framework
SEAL operates on a single task instance (C,τ), where C is context information relevant to the task, and τ defines the downstream evaluation for assessing the model’s adaptation. For example, in a knowledge integration task, C might be a passage to be integrated into the model’s internal knowledge, and τ a set of questions about that passage.
Given C, the model generates a self-edit SE, which then updates its parameters through supervised fine-tuning: θ′←SFT(θ,SE). Reinforcement learning is used to optimize this self-edit generation: the model performs an action (generates SE), receives a reward r based on LMθ′’s performance on τ, and updates its policy to maximize the expected reward.
The researchers found that traditional online policy methods like GRPO and PPO led to unstable training. They ultimately opted for ReST^EM, a simpler, filtering-based behavioral cloning approach from a DeepMind paper. This method can be viewed as an Expectation-Maximization (EM) process, where the E-step samples candidate outputs from the current model policy, and the M-step reinforces only those samples that yield a positive reward through supervised fine-tuning.
The paper also notes that while the current implementation uses a single model to generate and learn from self-edits, these roles could be separated in a “teacher-student” setup.
Instantiating SEAL in Specific Domains
The MIT team instantiated SEAL in two specific domains: knowledge integration and few-shot learning.
Knowledge Integration: The goal here is to effectively integrate information from articles into the model’s weights.
Few-Shot Learning: This involves the model adapting to new tasks with very few examples.
Experimental Results
The experimental results for both few-shot learning and knowledge integration demonstrate the effectiveness of the SEAL framework.
In few-shot learning, using a Llama-3.2-1B-Instruct model, SEAL significantly improved adaptation success rates, achieving 72.5% compared to 20% for models using basic self-edits without RL training, and 0% without adaptation. While still below “Oracle TTT” (an idealized baseline), this indicates substantial progress.
For knowledge integration, using a larger Qwen2.5-7B model to integrate new facts from SQuAD articles, SEAL consistently outperformed baseline methods. Training with synthetically generated data from the base Qwen-2.5-7B model already showed notable improvements, and subsequent reinforcement learning further boosted performance. The accuracy also showed rapid improvement over external RL iterations, often surpassing setups using GPT-4.1 generated data within just two iterations.
Qualitative examples from the paper illustrate how reinforcement learning leads to the generation of more detailed self-edits, resulting in improved performance.
While promising, the researchers also acknowledge some limitations of the SEAL framework, including aspects related to catastrophic forgetting, computational overhead, and context-dependent evaluation. These are discussed in detail in the original paper.
Original Paper: https://arxiv.org/pdf/2506.10943
Project Site: https://jyopari.github.io/posts/seal
Github Repo: https://github.com/Continual-Intelligence/SEAL
The post MIT Researchers Unveil “SEAL”: A New Step Towards Self-Improving AI first appeared on Synced.
関連記事
Anthropic の Claude が有料消費者層で ChatGPT を凌駕し市場を席巻
Anthropic が提供する AI チャットボット「Claude」が、従来 ChatGPT が独占していた有料顧客市場において支持を集め、シェア拡大に成功していることが示された。
General Intuition の 23 億ドル投資:ビデオゲームが現実世界の AI エージェントを訓練できるという賭け
General Intuition は、ビデオゲーム環境を活用して現実世界で動作する AI エージェントを訓練する技術に 23 億ドルを投資すると発表した。同社は、ゲーム内での学習が実社会のタスク遂行能力に転用可能であると確信している。
NVIDIA TensorRT を用いた複数 GPU での AI 推論のスケーリングとマルチデバイス推論サポートの紹介
NVIDIA は、TensorRT の新機能であるマルチデバイス推論サポートを活用し、複数の GPU にわたって AI 推論を効率的にスケーリングする手法を発表した。これにより大規模モデルの実行性能が向上する。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み