Seed Research|GR-RL発表:VLAの細かい操作のボトルネックを突破し、初めて実機での強化学習による靴紐結びを実現
字节跳动 Seed 团队发布的 GR-RL 框架,通过真机强化学习成功解决了 VLA 模型在穿鞋带等高难度柔性物体操作中的精度与鲁棒性瓶颈。
キーポイント
真機強化学習による突破
従来の模倣学習の限界を克服し、実環境での試行錯誤(真机强化学习)を通じて、穿鞋带成功率を 45.7% から 83.3% に大幅に向上させた。
模倣学習の二大欠陥の解消
人間演示データの「次優性(非効率な動作)」と、訓練・推論間の「実行ズレ」を特定し、これらを解決する新たなアプローチを採用した。
多段階学習フレームワークの構築
オフラインでのデータ選別、データ拡張、そしてオンライン真機微調整という 3 つの段階からなる学習パイプラインを確立し、柔軟な物体操作を実現した。
Critic Transformer の導入
動作の質を評価する批判者ネットワーク(Critic Transformer)を導入し、値分布強化学習を用いて環境ノイズに頑健な意思決定を可能にした。
反事实负样本构造与价值判别器
通过标记成功轨迹中的重试关键帧构造失败样本,并利用时序差分学习训练 Critic 模型剔除低价值片段,从而获得更纯粹的高质量基础策略。
隐空间探索与双缓冲池策略
针对毫米级精度需求,在隐空间通过噪声预测器引导轨迹生成而非原始动作空间加噪,并采用异/同策略双缓冲池平衡样本效率与分布偏移。
真机实验验证阶梯式性能提升
在 ByteMini-v2 机器人穿鞋带任务中,GR-RL 通过数据过滤、增强及在线强化学习三个阶段,将成功率从基线的 45.7% 显著提升至 83.3%。
影響分析・編集コメントを表示
影響分析
この成果は、具身知能が実験室から実社会へ移行する際の最大の障壁であった「柔軟物体の精密操作」に対する決定的な進展を示しています。特に真機での強化学習を VLA に適用した事例は、シミュレーションと現実のギャップ(Sim-to-Real Gap)を埋めるための新しいパラダイムを提供し、将来的な家庭用ロボットの汎用性を飛躍的に高める可能性があります。
編集コメント
「穿鞋帯」という一見単純なタスクを、VLA モデルの真の実用性を測る試金石として選び、真機強化学習で劇的な成功率向上を達成した点は非常に示唆に富んでいます。
Seed Research|GR-RL 发布:突破 VLA 精细操作瓶颈,首次实现真机强化学习穿鞋带
原创 Seed Research 2025-12-02 12:23 北京
让 VLA 在真实环境中交互学习
在 Scaling Law(扩展定律)的推动下,具身智能正迎来关键突破,基于海量数据预训练的视觉 - 语言 - 动作(Visual-Language-Action, VLA)模型已展现出不错的通用泛化能力。
然而,当我们将机器人的应用场景从理想的实验室环境搬进复杂的家庭环境中,面对诸如“穿鞋带”这类看似琐碎,实则要求高精度、高鲁棒性、柔性物体操作的任务时,现有的 SOTA(State-of-the-Art,最先进)模型往往表现得力不从心。
对人类而言,“穿鞋带”是肌肉记忆;但对机器人而言,这是操作领域最难的灵巧任务之一。
为何拥有“通用大脑”的机器人,却依然做不好这件小事?
字节跳动 Seed 团队研究发现,症结在于主流模仿学习(Imitation Learning)范式存在两大内生缺陷——人类演示数据的“次优性”以及训练与推理之间的“执行错位”。为了突破这一瓶颈,团队并未依赖难以建模的仿真学习,而是选择探索一条更具挑战性的路径:真机强化学习 (Real-world Reinforcement Learning)。
基于此,字节跳动 Seed 团队发布最新研究成果 GR-RL,着力于拓展 VLA 模型在长时程精细灵巧操作方面的能力边界。
GR-RL 以多阶段强化学习实现穿鞋带
GR-RL 提出了一套从离线数据筛选到在线真机微调的强化学习框架,在业界首次实现“让机器人给整只鞋连续穿鞋带”。相较前作监督学习模型 GR-3,GR-RL 在穿鞋带任务上将成功率从 45.7% 提升至 83.3%,减少了近 70% 的失败情况。
本文将深度解读 GR-RL 如何通过一套从经验中自主学习的多阶段训练方法,攻克柔性物体操作难题。
论文链接:
https://arxiv.org/abs/2512.01801
项目主页:
シード・リサーチ|GR-RL 発表:VLA 精密操作のボトルネックを突破、実機での強化学習による靴紐結びを初めて実現(続き 2/6)
https://seed.bytedance.com/gr_rl
汎用基盤から精密操作へ
VLA モデルを実用的なものへと導く
事前学習は VLA モデルに一般的な知覚と意思決定能力を提供しますが、それが特定の応用シーンでそのまま信頼して動作できることを意味するわけではありません。
この限界を検証するため、チームは「靴紐を結ぶ」というタスクを試金石として選びました。このタスクはロボット操作分野における三大の課題を集約しています:
柔軟な相互作用:靴紐の形状は外力に応じてリアルタイムに変化し、予測が困難です。
極限の精度:靴紐を穴に通すためにはミリメートル単位の制御精度が必要です。
長時間の頑健性:数分間の連続操作において、あらゆる突発的な状況に対処する必要があります。
チームは、優れた汎化能力を持つ汎用ロボットモデル GR-3(ロボット軌跡、人間のデモデータ、公開された画像・テキストデータを基に訓練)でさえも、此类タスクに対しては直接微調整を行っても実用的な戦略を得ることはできないことを発見しました。
なぜ主流の模倣学習がここで失敗するのか?チームは以下の 2 つの主要な技術的難点をまとめました:
人間のデモデータに「非最適断片」が含まれていること:極めて高精度な器用操作の場面では、人間の実演者は無意識に動作を遅くしたり、躊躇したり、途中で何度も失敗して修正したりします。これをそのまま模倣学習すると、モデルは無効あるいは誤った動作を記憶してしまい、戦略が不確かで精密さを欠いてしまいます。
訓練と推論における「実行のズレ」:滑らかな推論と制御を実現するために、業界では通常、予測された動作ブロックに対して後処理を行います。例えば、時系列アンサンブル(Temporal Ensembling)や再帰的ホライゾン制御(Receding Horizon Control)などです。これらの最適化手法は動作の滑らかさを保証する一方で、モデルが訓練時に学習した動作(Predicted Action)と推論時に実行される動作(Final Action)との間に不一致を生じさせます。ミリメートル単位の精度操作においては、このズレが動作と環境フィードバックの真の因果連鎖を断ち切り、タスクの失敗につながります。
VLA の精密操作におけるボトルネックを突破するためには、新しいアプローチが必要です:質にばらつきのあるデモデータから高品質な行動を抽出できると同時に、モデルが環境の中で試行錯誤し練習することで、自身の経験データを用いて実際の展開環境に適応できるようにする手法です。
オフライン+オンラインの多段階強化学習
ロボットを試行錯誤の中で継続的に学習させる
前述したデータの非最適性と実行エラーという課題に対し、Seed チームは長時間かつ高精度な器用操作に適した GR-RL モデルを提案しました。
既存の VLA 基盤に加え、GR-RL は追加の判別器ネットワーク(Critic Transformer)を導入し、ロボットの動作の質を評価します。このネットワークは動作シーケンス内の各時刻の動作に対して個別にスコアリングを行います。具体的には、GR-RL は値分布強化学習を採用し、判別器の出力を離散確率分布と仮定することで、実環境に存在するノイズをより頑健に捉えるようにしています。
GR-RL のモデルアーキテクチャ
このアーキテクチャに基づき、GR-RL は経験から選別し、実践で進化させる多段階訓練フレームワークを設計しました。このフレームワークには 3 つの核心要素が含まれています:オフライン強化学習、データ拡張、およびオンライン強化学習です。
オフラインフェーズ:評価モデルによるデータの「偽物除去」
人間のデモデータには非最適断片が混在しています。GR-RL の最初のステップは、上記の判別器ネットワーク(すなわち Critic 価値評価モデル)をオフライン強化学習で訓練し、モデルにまず「何が誤った動作か」を学ばせることです。
「反事実的」負のサンプルを構築する:遠隔操作によって収集された軌跡は成功事例が多く、失敗事例が不足しているため、チームは各軌跡に再試行を開始する重要なフレームをマーキングし、より多くの失敗軌跡を構成しました。ある成功した元の軌跡をimageと仮定し、その中で再試行開始の重要なフレーム
imageをマーキングします。元の成功軌跡に加え、システムは再試行前の断片
imageを切り取り、これを失敗軌跡としてマーキングします。この手法により、追加の収集コストを増やすことなく、負のサンプル空間を大幅に拡張しています。
価値判別器の訓練:成功と失敗が混在する軌跡セット上で、チームは時系列差分学習(TD Learning)を用いて Critic 価値評価モデルを訓練します。以下の図は、ある収集された軌跡上での評価モデルの予測状況を示しています。オペレーターのエラーにより靴紐が穴から滑り落ちた際、Critic の予測値(Q-value)は急激に低下し、オペレーターが2回目の試行で成功して穴に通した際には、予測値は即座に回復して安定して上昇します。これに基づき、チームは Q 値が急降下する低価値の断片を除外し、高品質なデータのみを監督学習に使用することで、より純粋な基本戦略を獲得しました。
評価モデルによる収集軌跡断片の良否判定
データ拡張:物理的な「対称性」による汎化理解の強化
チームは両腕協働タスクの鏡像対称性を活用し、全方位のデータ拡張戦略を設計しました。画像、オントロジー状態(本体の状態)、動作軌跡、言語指令に対して左右の鏡像反転を行います。これによりデータ量が2倍に増えるだけでなく、モデルが空間関係に対する汎化理解を向上させます。
オンラインフェーズ:誘導強化学習による微細訓練
チームは、モデルがシステム全体の最適化をすべて強化学習環境の一部と見なし、閉ループのオンライン相互作用を通じて探索と自己最適化を行うことが、微細な操作において極めて重要であることを発見しました。チームは、フローモデルのノイズ除去プロセスを微調整するために誘導型強化学習(steering RL)手法を採用し、ロボットの動作を評価モデルの高い報酬領域へと導きます。
潜在空間内での探索:タスク完了にはミリメートル単位の精度制御が必要であるため、手首や関節位置などの元の動作空間にランダムノイズを追加する従来の方法では、成功した軌道を探り出すことはほぼ不可能です。そこでチームは、潜在空間内で構造化された探索を行い、フローモデル戦略の入力ノイズを調整することで、戦略が異なる軌道を予測するように誘導します。チームは VLM 骨格ネットワークの後に、わずか 51.5M パラメータのノイズ予測器を導入しました。この予測器はフローモデルの入力ノイズを調整し、生成された軌道が評価モデルの高いスコア領域へと偏るように導きます。
デュアルバッファ戦略:サンプル効率と分布シフトのバランスを取るため、チームは 2 つのバッファプールを維持しています。異方性(オフポリシー)バッファプールには、過去の重みで生成された相互作用データが保存され、Critic の予備学習に使用されます。一方、同方性(オンポリシー)バッファプールには、直近の 2 バージョンのモデルによって生成された軌道のみが保存されます。訓練時には、システムは 2 つのプールから 1:1 で均等にサンプリングします。この戦略により、サンプル利用率が保証されると同時に、モデルの急速な更新による分布シフトを回避し、オンライン微調整の堅牢性と効率性が確保されます。
GR-RL の実機実験検証
成功率の倍増から「誤り修正」知能の創発へ
二腕式車輪型ロボット ByteMini-v2 上で、チームは「靴紐を通す」というタスクに基づき GR-RL をフルプロセスで検証しました。このロボットは、人間の手首のように柔軟に回転できる独自の球形手首関節設計を備えており、微細な器用作業において独自の優位性を発揮します。
チームは厳格な実験基準を設けました:スパース報酬関数を採用し、靴紐が指定された穴を成功裡に通って再び机の上に置かれたという最終状態のみでモデルに 1 点の報酬を与え、それ以外の状況では 0 点とします。モデルへの観測には、ヘッドと手首の 3 つの視点からの RGB 画像、ロボット本体の状態情報、および言語指令が含まれます。
ByteMini-v2 ロボット
実験結果によると、純粋な模倣学習のベースライン(GR-3)の成功率はわずか 45.7% で、微細な操作には対応しきれませんでした。GR-RL は多段階訓練フレームワークを通じて性能を階段状に向上させました。3 つのコアコンポーネントすべてが成功率の向上に重要な貢献を果たしています:
データフィルタリング:次最適データを除去した後、オフラインデータフィルタリングにより成功率は 61.6% に向上しました。
データ拡張:ミラー画像データの導入により、成功率は 72.7% まで引き上げられました。
オンライン強化学習:拡張されたオフライン学習モデルをオンライン強化学習の起点とし、約 150 本の軌道を実機での閉ループ探索と修正を経て、GR-RL の最終的な成功率は 83.3% に上昇しました。
左図:多段階訓練による階段状の成功率向上;
右図:オンライン強化学習における成功率の変化曲線
実験において、チームは強化学習を導入した GR-RL が、人間のような誤り修正の知能を備えていることを観察しました。モデルはミスに対処する際に堅牢に回復します:例えば、靴ひもが把持や穿孔の過程で予期せず滑り落ちた場合でも、モデルはフリーズすることなく自発的に再試行を行います;初期配置が困難な状況(例:靴ひもが押さえつけられている場合)では、モデルは自らをより慣れ親しんだ状態へとシナリオを調整し、その後にタスクを完了します。
ミスに対処する際、GR-RL は自発的に再試行を行う
配置が不自然な場合、GR-RL は積極的に調整を行う
この「知覚 - 意思決定 - 修正」の閉ループ能力は、モデルが単に軌跡を記憶しているのではなく、タスクの物理的論理を真に理解していることを証明しています。
まとめと展望
GR-RL の研究は一つの事実を検証しました:長時間かつ極めて高精度な柔軟物体の操作においては、実機での強化学習が有効な技術経路であるということです。これにより、シミュレーションに依存できない状況下でも、閉ループインタラクションを通じて模倣学習のパフォーマンスの天井を突破することが可能となりました。
しかし、実際の探求において、チームは現在のソリューションにも限界があることを発見しました:現在のプロセスにおける主要な問題の一つは行動の偏りです。スパースでノイズを含む報酬信号の下では、オンライン強化学習段階におけるモデルの行動が不安定になる可能性があります。これは軽量なノイズ予測器の容量に限界があることに起因するものかもしれませんし、膨大な潜在空間内の動作空間において、信用配分(Credit Assignment)自体が課題となることによるものかもしれません。
チームは、強化学習は孤立した微調整の工程であってはならないと考えています。今後の鍵は、実機での閉ループインタラクションから得られた RL 経験を、基礎的な VLA モデルに蒸留することにある可能性があります。このデータによるフィードバックを通じて、高精度な操作性能と強力な汎化能力を兼ね備えた汎用戦略の構築が期待されます。
原文を読む
WeChat で開くにはこちらへ
原文を表示
原创 Seed Research 2025-12-02 12:23 北京
让 VLA 在真实环境中交互学习
在 Scaling Law 的推动下,具身智能正迎来关键突破,基于海量数据预训练的视觉-语言-动作(VLA)模型已展现出不错的通用泛化能力。
然而,当我们将机器人的应用场景从理想的实验室环境搬进复杂的家庭环境中,面对诸如“穿鞋带”这类看似琐碎,实则要求高精度、高鲁棒、柔性物体操作的任务时,现有的 SOTA 模型往往表现得力不从心。
对人类而言,“穿鞋带”是肌肉记忆;但对机器人而言,这是操作领域最难的灵巧任务之一。
为何拥有“通用大脑”的机器人,却依然做不好这件小事?
字节跳动 Seed 团队研究发现,症结在于主流模仿学习(Imitation Learning)范式存在两大内生缺陷——人类演示数据的“次优性”以及训练与推理之间的“执行错位” 。为了突破这一瓶颈,团队并未依赖难以建模的仿真学习,而是选择探索一条更具挑战性的路径:真机强化学习(Real-world Reinforcement Learning)。
基于此,字节跳动 Seed 团队发布最新研究成果 GR-RL,着力于拓展 VLA 模型在长时程精细灵巧操作方面的能力边界。
GR-RL 以多阶段强化学习实现穿鞋带
GR-RL 提出了一套从离线数据筛选到在线真机微调的强化学习框架,在业界首次实现“让机器人给整只鞋连续穿鞋带”。相较前作监督学习模型 GR-3,GR-RL 在穿鞋带任务上将成功率从 45.7% 提升至 83.3%,减少了近 70% 的失败情况。
本文将深度解读 GR-RL 如何通过一套从经验中自主学习的多阶段训练方法,攻克柔性物体操作难题。
论文链接:
https://arxiv.org/abs/2512.01801
项目主页:
https://seed.bytedance.com/gr_rl
从通用基座到精细操作
让 VLA 模型走向真正可用
预训练为 VLA 模型提供了通用的感知与决策能力,但这并不意味着它们能直接在特定应用场景中可靠地运行。
为了验证这一边界,团队选择了“穿鞋带”作为试金石。这一任务集齐了机器人操作领域的三大挑战:
柔性交互:鞋带形态随受力实时变化,难以预测;
极致精度:需达到毫米级控制精度才能准确将鞋带穿过鞋孔;
长时程鲁棒性:需在数分钟的连续操作中应对各类突发状况。
团队发现,即便是拥有出色泛化能力的通用机器人模型 GR-3(基于机器人轨迹、人类演示数据及公开图文数据训练),在面对此类任务时也无法直接通过微调获得可用策略。
为何主流的模仿学习在此失效?团队总结了两大核心技术难点:
人类演示数据存在“次优片段”:在极高精度的灵巧操作场景下,人类演示者会不自觉地放慢动作、出现犹豫,甚至多次中途失败再修正。如果直接进行模仿学习,模型会记住无效甚至错误的动作,导致策略不够果断和精准。
训练与推理存在“执行错位”:为实现平滑的推理与控制,业界通常会对预测的动作块进行后处理,例如时序集成(Temporal Ensembling) 、滚动时域控制(Receding Horizon Control)等。这些优化方法虽保证了动作的平滑性,但也导致模型训练时学习的动作(Predicted Action)与推理时执行的动作(Final Action)出现不对齐。在毫米级精度操作中,这种错误切断了动作与环境反馈的真实因果链条,导致任务失败。
为了攻克 VLA 精细操作的瓶颈,我们需要一套新方法:既能从质量良莠不齐的演示数据中抽取出高质量的行为,又能让模型在环境中尝试和练习,利用自身经验数据使模型真正适应部署的环境。
离线 + 在线多阶段强化
让机器人在试错中持续学习
针对前述提到的数据次优性与执行错误难题,Seed 团队提出适用于长时程、高精度灵巧操作的 GR-RL 模型。
在原有的 VLA 基础上,GR-RL 引入了一个额外的判别器网络(Critic Transformer),用于衡量机器人动作的质量,对动作序列中每个时刻的动作都进行一次打分。具体而言,GR-RL 采用了值分布强化学习,将判别器输出假设为一个离散概率分布,以更鲁棒地捕捉真实环境中存在的噪声。
GR-RL 的模型架构
基于此架构,GR-RL 设计了一套从经验中筛选、在实践中进化的多阶段训练框架。该框架包含三个核心环节:离线强化学习、数据增强以及在线强化学习。
离线阶段:基于评估模型对数据“去伪存真”
人类演示数据中混杂着次优片段,GR-RL 的第一步是利用离线强化学习训练上述的判别器网络(即 Critic 价值评估模型),让模型先学会“什么是错误的动作”。
构造“反事实”负样本:由于遥操作收集到的轨迹大多是成功的,缺乏负样本,因此团队在每条轨迹中标记开始重试的关键帧,构造出更多失败轨迹:假设一条成功的原始轨迹为image,团队在其中标记出开始重试的关键帧
image,除原始成功轨迹外,系统将截取重试前的片段
image并将其标记为失败轨迹。这种方法在不增加额外采集成本的情况下,大幅扩充了负样本空间。
训练价值判别器:在混合了成功与失败的轨迹集上,团队利用时序差分学习(TD Learning)训练 Critic 价值评估模型。下图展示了评估模型在一条采集轨迹上的预测情况:当操作员失误导致鞋带从孔中滑出时,Critic 预测值(Q-value)骤降;而当操作员第二次尝试并成功穿孔时,预测值会马上恢复并稳定上升。基于此,团队剔除了 Q 值突降的低价值片段,仅保留高质量数据用于监督学习,从而获得了更纯粹的基础策略。
评估模型评判采集轨迹片段的好坏
数据增强:物理“对称”强化泛化理解
团队利用双臂协作任务的镜像对称性,设计了全方位的数据增强策略:对图像、本体状态、动作轨迹和语言指令进行左右镜像翻转。这不仅将数据量翻倍,更提升了模型对空间关系的泛化理解。
在线阶段:导向强化学习进行精细训练
团队发现,模型必须把系统级优化都当成强化学习环境的一部分,通过闭环在线交互进行探索与自我优化,这一点对于精细操作至关重要。团队采用导向强化学习(steering RL)方法微调 flow 模型的去噪过程,把机器人动作导向评估模型的高回报区域。
隐空间探索: 由于完成任务需要毫米级的精度控制,使用在原始动作空间如手腕或关节位置添加随机噪声的常规方法,几乎无法探索出成功轨迹。团队转而在隐空间中进行结构化探索,通过调整流模型策略的输入噪声,让策略预测出不一样的轨迹。 团队在 VLM 骨干网络后引入了一个仅 51.5M 参数的噪声预测器, 它通过调整流模型的输入噪声,引导生成的轨迹向评估模型的高分区域偏移。
双缓冲池策略: 为了平衡样本效率与分布偏移,团队维护了两个缓冲池,其中异策略缓冲池存储历史权重生成的交互数据,用于 Critic 预热;同策略缓冲池仅存储最近两个版本模型生成的轨迹。训练时,系统从两个池中 1:1 均匀采样。这种策略既保证了样本利用率,又避免了因模型快速更新导致的分布偏移,确保在线微调稳健高效。
GR-RL 真机实验验证
从成功率翻倍到涌现“纠错”智能
在双臂轮式机器人 ByteMini-v2 上,团队基于“穿鞋带”任务对 GR-RL 进行了全流程验证。该机器人配备了独特的球形腕部关节设计,能够像人类手腕一样灵活转动,在精细灵巧任务中独具优势。
团队设计了严格的实验标准:采用稀疏奖励函数,即只有在鞋带成功穿过指定的孔并放回桌面这一最终状态,模型才能获得 1 分奖励,其他情况下均为 0 分。对模型的观测,包括头部与腕部三个视角的 RGB 图像、机器人本体状态信息以及语言指令。
ByteMini-v2 机器人
实验结果表明,纯模仿学习基线(GR-3)的成功率仅为 45.7%,难以应对精细操作。GR-RL 通过多阶段训练框架实现了性能的阶梯式跨越,三个核心组件都对成功率的提升有重要贡献:
数据过滤:剔除次优数据后,离线数据过滤将成功率提升至 61.6%;
数据增强:引入镜像数据扩充,成功率可提升至 72.7%;
在线强化学习:以增强后的离线学习模型作为在线强化学习的起点,经过约 150 条轨迹的真机闭环探索与修正,GR-RL 的成功率最终上升至 83.3%。
左图:多阶段训练实现阶梯式成功率提升;
右图:在线强化学习的成功率变化曲线
在实验中,团队观察到,引入强化学习后的 GR-RL 涌现出了类似人类的纠错智能。模型应对失误情况时能稳健恢复:例如当鞋带在抓取、穿孔环节意外滑落时,模型并未卡死,而是自发重试;在初始摆放位置比较困难(如鞋带被压住)时,模型能主动将场景调整到自己更熟悉的状态,再接着完成任务。
面对失误情况,GR-RL 能自发重试
摆放位置别扭时,GR-RL 会主动调整
这种“感知-决策-修正”的闭环能力,证明了模型真正理解任务的物理逻辑,而非单纯记忆轨迹。
总结与展望
GR-RL 的工作验证了一件事:对于长时程、极高精度的柔性物体操作,真机强化学习是一条行之有效的技术路径。它让我们在无法依赖仿真的情况下,依然能通过闭环交互突破模仿学习的性能天花板。
但在实际探索中,团队也发现目前的方案仍存在局限性:当前流程的主要问题之一是行为偏移。在稀疏且含噪声的奖励信号下,模型在在线强化学习阶段的行为可能出现不稳定。这可能源于轻量级噪声预测器的容量有限,也可能是在庞大的隐空间动作空间中,信用分配(Credit Assignment)本身具有挑战性。
团队认为,强化学习不应是一个孤立的微调环节。未来的关键可能在于将真机闭环交互中获得的 RL 经验,蒸馏回基础 VLA 模型中。通过这种数据反哺,我们有望构建出兼具高精度操作性能与强大泛化能力的通用策略。
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み