継続学習のための「睡眠」アプローチ(24 分読)
人間のプロセスに着想を得た「Sleep」パラダイムにより、短期記憶を長期知識へ定着させ、強化学習を用いた自発的な学習で継続的学習と汎化能力を飛躍的に向上させる手法が提案された。
キーポイント
睡眠(Sleep)パラダイムの導入
人間のような学習プロセスに着想を得た新フレームワークで、モデルの短期記憶を長期パラメータへ転送し、継続的学習と知識移転を実現する。
知識種子化(Knowledge Seeding)による記憶定着
「メモリ統合」フェーズにおいて、小規模モデルの記憶を大規模ネットワークへ伝達する一般化された蒸留プロセスと強化学習に基づく模倣学習を組み合わせる。
夢(Dreaming)による自律的改善
「夢」フェーズでモデル自身が強化学習を用いて合成データのカリキュラムを生成し、人間の介入なしに新知識の練習と既存能力の洗練を行う。
長期的学習タスクでの実証
長期ホライズン、継続的学習、知識統合、few-shot 汎化などの課題において、睡眠ステージの重要性を実験的に裏付けた。
公開時期とバージョン
この論文の版は2025年9月以降にOpenReviewで公開されており、現在のバージョン(v1)は2026年6月2日に提出されたものです。
学術分類と識別子
機械学習および人工知能を専門分野とし、arXiv ID 2606.03979 および対応するDOIで一意に識別されます。
影響分析・編集コメントを表示
影響分析
本論文は、LLM が一度学習した知識を永続化し、新たな情報を吸収しながらも既存の能力を維持する「継続的学習」の実現に向けた画期的なアプローチを示しています。特に、強化学習を活用してモデルが自ら学習データを生成・改善する自律的なメカニズムは、将来的に大規模モデルのコスト削減と適応速度の劇的向上をもたらす可能性があります。
編集コメント
人間の脳が睡眠中に情報を整理・定着させるプロセスを AI に模倣したこのアプローチは、現在の LLM が抱える「忘却」や「学習の非効率性」という根本課題への解決策として極めて注目すべきものです。
Abstract:The past few decades have witnessed significant advances in the design of machine learning algorithms, from early studies on task-specific shallow models to more general deep Large Language Models (LLMs). Despite showing promising results in tasks that require instant prediction or in-context learning, existing models lack the ability to continually learn and effectively transfer their temporal in-context knowledge to their long-term parameters. Inspired by human learning process, we introduce a ''Sleep'' paradigm that allows the models to continually learn, distill their short-term fragile memories into stable long-term knowledge with replay, and recursively improve themselves with ''Dreaming'' process. In more detail, sleep consists of two stages: (1) Memory Consolidation: an upward distillation process, called Knowledge Seeding, where the memories of a smaller-self are distilled into a larger network to provide more capacity while preserving the knowledge. As a proof of concept, we present a new Generalized Distillation process for {Knowledge Seeding} (i.e., the combination of on-policy distillation with Reinforcement Learning (RL)-based imitation learning); (2) Dreaming: a self-improvement phase, where the model uses RL to generate a curriculum of synthetic data to rehearse new knowledge and refine existing capabilities without human supervision. Our experiments on long-horizon, continual learning, knowledge incorporation, and few-shot generalization tasks support the importance of the sleep stage.
Comments:
A version of this work has been publicly available from September 2025 on OpenReview
Subjects:
Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
Cite as:
arXiv:2606.03979 [cs.LG]
(or
arXiv:2606.03979v1 [cs.LG] for this version)
https://doi.org/10.48550/arXiv.2606.03979
arXiv-issued DOI via DataCite
Submission history
From: Ali Behrouz [view email] [v1]
Tue, 2 Jun 2026 17:56:55 UTC (2,961 KB)
関連記事
[AINews] 今日は何も大きな出来事はありませんでした
Anthropic が RSI の兆候を示し、OpenAI の ChatGPT が月間アクティブユーザー数で 10 億人を突破。SpaceX AI は IPO について説明しているが、最も重要なのは AIE WF のチケット確保とイベント参加である。
ロシアのプロパガンダに抵抗する能力において最も優れた大規模言語モデルとは
エストニア言語研究所は、外国の敵対国が推進する危険なプロパガンダを拡散する懸念に対応するため、大規模言語モデルがロシア連邦の戦略的トピックに対して立場を取らない能力を評価する「プロパガンダ抵抗」ベンチマークを発表した。
NVIDIA Nemotron 3 Ultra が Amazon SageMaker JumpStart で利用可能に
AWS は、推論速度を5倍向上させ、コストを最大30%削減する「NVIDIA Nemotron 3 Ultra」モデルを、Amazon SageMaker JumpStart でワンクリックデプロイ可能にしたと発表した。