腾讯混元·2026年4月9日 18:07·約12分で読める

テンセントRobotics Xラボと混元が2Bエンボディードモデルを共同開発：22項目中16項目で最高評価

#具身智能 #视觉语言模型 #机器人控制 #混合Transformer #腾讯 #ベンチマーク

TL;DR

腾讯混元团队与腾讯Robotics X实验室联合开发的HY-Embodied-0.5系列具身智能基础模型，在22项权威评测中取得16项最佳，其创新的架构与训练范式为AI在物理世界的实际应用提供了重要基础。

AI深層分析2026年4月9日 21:42

重要/ 5段階

深度40%

キーポイント

具身智能专用模型架构创新

HY-Embodied-0.5系列并非通用大模型的简单微调，而是从底层架构到训练范式完全为具身智能量身定制的重构，采用了混合Transformer（MoT）架构和视觉潜在Token机制。

两款主力模型定位明确

MoT-2B（总参数4B，激活2B）主打端侧部署和实时响应；MoE-32B（总参数407B，激活32B）追求复杂推理与极致性能，满足不同场景需求。

评测表现断层式领先

在涵盖感知、推理、规划的22项权威评测中，MoT-2B模型取得16项最佳，超越参数更大的通用底座和具身专属模型；MoE-32B的综合成绩可与行业标杆Gemini 3.0 Pro抗衡。

训练数据与范式创新

模型基于超过100M的高质量具身专属数据，采用迭代式后训练范式，应用拒绝采样微调、强化学习、在线蒸馏等方案，驱动模型思维链自主进化。

实际应用验证

通过将VLM底座应用于VLA（视觉-语言-动作）模型，直接让模型接管现实世界中的机器人控制，证明了其并非纸上谈兵。

実機タスクでの性能向上

HY-Embodied-0.5基座は、パッキング、積み重ね、吊り下げの3つの実機タスクにおいて、pi0およびpi0.5初期化モデルと比較して、同じアクショントレーニングデータを使用しながら優れた効果を達成した。

視覚と言語のMoTアーキテクチャ

HY-Embodied-0.5は、視覚と言語のモダリティ適応と無損失知覚を実現するために設計された。視覚と言語が互いに干渉せずに性能を倍増させることを目指している。

影響分析・編集コメントを表示

影響分析

この記事は、AIがテキストや画像の理解から物理世界での実際の動作・制御へと進化する重要なマイルストーンを示しています。特に小パラメータモデルが大規模モデルを凌駕する性能を示したことは、エッジデバイスでの実用化を加速させる可能性があり、ロボティクスや自動化産業に大きな影響を与えるでしょう。

編集コメント

具身智能という実世界とのインタラクションが求められる分野で、中国企業が明確な技術的優位性を示した点が注目されます。特にパラメータ効率の高い小規模モデルの高性能化は、実用化のコスト面でも大きなアドバンテージとなるでしょう。

腾讯混元 2026-04-09 17:07 广西

基盤モデルは、実世界のエージェント（Agent）への重要な基礎です。

本記事は『量子位』により4月8日に初めて公開されました。

大規模言語モデルを真に現実世界へ導入することは、現在最も緊急性の高いニーズの一つです。

しかし、その美しいビジョンは、実際の物理環境の前でしばしば壁にぶつかります。

テキストの世界では流暢に対応できる汎用ビジョン言語モデル（VLM: Vision-Language Model）も、一度ロボットに組み込まれると、しばしば不器用でぎこちなく見えます。

理由はシンプルです——物理世界には曖昧さの余地がありません。汎用モデルは普段、画像を「おおまかに」理解できれば十分ですが、具身知能（Embodied AI）には極めて精緻な三次元空間の認識と、実際の物理的相互作用に関連する予測・計画が必要です。「問題解決型」の頭脳で現実の肉体労働を行うのは、当然ながら水土不服（不適合）になります。

この業界の痛みに直面し、腾讯混元チームと腾讯Robotics Xラボが共同で開発したHY-Embodied-0.5シリーズの基盤モデルは、非常にハードコアな回答を示しました。これは汎用大規模言語モデル上での単純な「ファインチューニング」ではなく、基盤アーキテクチャからトレーニングパラダイムに至るまで、「具身知能」のために完全にカスタマイズされた再構築です。

今回、HY-Embodiedチームは二つの主力モデルをリリースしました：

MoT-2B（総パラメータ40億、アクティブパラメータ20億）は、革新的な混合Transformer（MoT: Mixture-of-Transformers）アーキテクチャを採用し、エッジ側（端末側）へのデプロイとリアルタイム応答を主眼としています。

MoE-32B（総パラメータ4070億、アクティブパラメータ320億）は、複雑な推論と極致の性能を追求します。

AIが物理空間を真に「理解」し、正確な反応を行うために、チームはアーキテクチャ、データ組織化、トレーニングフローにおいて多くの革新を行いました。

彼らはネイティブ解像度のビジュアルエンコーダを採用するだけでなく、対象的にMixture-of-Transformers（MoT）アーキテクチャを採用し、ビジュアル潜在トークン（Visual Latent Token）メカニズムを導入することで、視覚と言語空間の対齐（アライメント）をさらに強化しました。

トレーニング面では、モデルはまず1億件以上の高品質な具身専用データで基盤を固め、反復型ポストトレーニングパラダイムを導入しました。拒否サンプリング微調整（Refusal Sampling Fine-tuning）、強化学習、オンライン蒸留などの手法を適用し、モデルの思考チェーン（Chain of Thought）の自律的進化を駆動するとともに、大規模モデルの能力を高忠実度で「圧縮」し、アクティブパラメータがわずか20億の軽量バリアントに伝授しました。

HY-Embodiedシリーズモデルは、オープンソースのベンチマーク（Benchmark）で圧倒的なリードを達成しただけでなく、物理的な実演でも紙の上の議論ではないことを証明しました：VLM基盤をVLA（Vision-Language-Action: 視覚・言語・行動）モデルに適用し、直接現実世界のロボット制御を任せることでその実効性を示しました。

知覚（Perception）、推論（Reasoning）、計画（Planning）の22項目からなる権威ある評価ベンチマークにおいて、HY-Embodied-0.5は極めて強力なパフォーマンスを示しました。パラメータ数が少ないMoT-2Bモデルは、16項目で最高スコアを記録し、より大規模な汎用基盤モデルであるQwen3-VL-4Bや、具身知能（Embodied AI）専用モデルであるRoboBrain2.5、MiMo-Embodiedなどを上回りました。

△ HY-Embodied-0.5 2Bパラメータ版の評価結果

一方、完全な機能を持つMoE-A32Bモデルは、具身知能評価基準における総合スコアが、現在の業界標準であるGemini 3.0 Proなどと互角に渡り合っています。

△ HY-Embodied-0.5 フラッグシップモデルの評価結果

優れた評価性能に加え、2Bパラメータの小規模モデルも良好な使用感を提供します。視覚知能および具身タスクにおいて、正確な結果だけでなく、明確で合理的な推論プロセスを示しています。

より強力なビジョン言語モデル（Vision-Language Model, VLM）の基盤をロボットの実機タスクに適用することで、より優れた結果が得られます。事前学習済みのHY-Embodied-0.5基盤（右図）は、ベースラインモデル（左図）と比較して優れています。

同じ動作の訓練データを使用した場合、HY-Embodied基盤はpi0およびpi0.5で初期化されたモデルと比較して、梱包、積み重ね、吊り下げの3つの実機タスクにおいてより優れた結果を達成します。

視覚と言語を統合したMoT（Mixture of Transformers）アーキテクチャ

マルチモーダル学習において、視覚信号は情報量が膨大であるため、モデルが画像を「理解」することに集中しすぎると、本来言語処理に割り当てられるパラメータ空間が圧迫され、「画像認識は優れているのに、言語生成能力が低下する」というカタストロフィックフォギティング（壊滅的忘却）が発生しがちです。この現象は、2B規模のエッジデバイス向けモデルにおいて特に顕著に現れます。

HY-Embodied-0.5は、アーキテクチャ面からモーダル適応性と損失のない知覚の実現を目指しています。つまり、エッジデバイス向けモデル（例：HY-Embodied-0.5-MoT-2B）は、情報損失を最小限に抑えつつ入力画像を明確に認識するだけでなく、視覚と言語が互いに干渉することなくそれぞれの役割を果たすことで、性能の倍増を実現します。

△ HY-Embodied-0.5 MoT-2Bのアーキテクチャ図

エッジデバイスにおける小規模モデルのパフォーマンスボトルネックを打破するため、HY-Embodiedは基盤となるVLM（Vision-Language Model：視覚言語モデル）アーキテクチャを深く再構築しました。その核心は以下の3つの主要コンポーネントで構成されます。

HY-ViT 2.0（ネイティブ解像度対応ビジュアルエンコーダー）

HY-ViT 2.0は、任意の解像度での入力をネイティブにサポートするだけでなく、エッジデバイス向けに最適化された400Mパラメータの軽量バージョンも提供しています。より強力な内部大規模モデルからの知識蒸留（Knowledge Distillation）を行い、視覚再構築の監督信号および小型LLM（Large Language Model：大規模言語モデル）による言語監督を導入することで、大規模言語モデルに入力される視覚信号の情報損失を最小限に抑えます。

MoT計算と双方向アテンション（混合Transformerアーキテクチャ）

視覚と言語の処理が競合しないよう、モデルはMoT（Mixture of Transformers：混合トランスフォーマー）メカニズムを導入し、視覚ブランチに非共有パラメータを割り当てました。具体的には、言語モデルのFFN（Feed-Forward Network：前層ネットワーク）およびQKVパラメータを複製し、事前学習済みの重みで初期化した上で、視覚トークンの計算専用に割り当てています。これによりモデルのパラメータ数は倍増しますが、推論効率にはほぼ影響がありません。

また、画像は言語のような一方向のシーケンシャルな性質を持たないため、モデルは視覚トークンに対して独立した全方向（双方向）アテンションメカニズムを解放し、視覚Next-code予測タスク（各8x8の画像ブロックを2kの離散語彙を用いて単一のコードに圧縮するものを監督信号とする）を導入することで、より強力な視覚監督信号を提供します。

Visual Latent Tokens（視覚潜在トークン：視覚と言語の架け橋）

潜在思考メカニズムに触発され、HY-Embodied-0.5は、各視覚入力シーケンス（画像やビデオフレームなど）の末尾に専用の「ビジュアル潜在トークン」を追加します。事前学習フェーズでは、これらのトークンは超大規模なViT（Vision Transformer）のグローバル特徴から直接監督を受けます。これらは視覚とテキストコンテンツを結ぶ橋渡し役として、エッジ側の小規模モデルの全体的な知覚容量と細粒度理解能力を大幅に向上させます。

大規模で高品質な具身＋空間データ

△ HY-Embodied-0.5の訓練データ構成

HY-Embodied-0.5チームは、モデルが実際の物理エージェント（Agent）のように、「立体空間知覚」から「論理的計画実行」に至る完全な認知リンクを構築することを望んでいます。モデルに真の物理的直感を注入するため、HY-Embodied-0.5は断片的なデータの寄せ集めを放棄し、膨大な基礎視覚データと高度に専門的な具身・空間認知データを深く統合しました。

視覚知覚

視覚知覚データは、モデルに包括的で多次元の「基礎的な視覚理解」能力を体系的に構築します。マクロな2次元および3次元の全方向検出、物理環境の深さ推定から、ミクロな高解像度セマンティックセグメンテーションに至るまで、さらに高密度の目標指向と正確な数え上げといった極めて挑戦的なタスクも含みます。これらのデータにより、モデルは複雑なシーンに対するピクセル単位の精密な制御を確立し、その後の精緻な具身物理操作のための堅牢で信頼性の高い視覚的アンカーの基盤を築きます。

空間知覚

空間知覚データは、3次元環境専用に設計された「空間感覚」を体系的に注入します。幾何学的深さ、空間トポロジーから、視点間の物理的対応関係、さらに厳格な絶対的物理計測に至るまで。これらのデータにより、モデルは2次元ピクセルの限界を完全に打破し、真の立体幾何学的直感を確立します。

具身知覚

HY-Embodied-0.5は、現実世界の物理操作データを厳密な3つの階層に分解します：知覚、セマンティック理解、高度な計画です。これには、基礎的な視覚的アンカーリングやアフィダンス（affordance）予測から、実際のロボットアームの第一人称視点から抽出された長視野の動作推論および軌道予測までが含まれます。これらのデータを通じて、モデルは現在のタスク状態を評価するだけでなく、視覚パズルや直感的な物理法則を含む複雑なシーンにおいて、次の行動シーケンスを正確に生成する方法も学びます。

マルチステージ長連鎖推論後学習

HY-Embodied-0.5は、訓練パラダイムにおいて「基礎的な知覚から深い思考へ、そしてエッジ側へのデプロイメント」までの完璧なクローズドループの実現を目指しています。つまり、モデルは膨大なデータの中で視覚と言語の基盤を固めるだけでなく、自己進化を通じて真に長連鎖論理推論能力を習得する必要があります。

△ HY-Embodiedのトレーニングフロー

常識を理解し、強力な具身（身体を備えた）推論能力を持つモデルを育成するために、HY-Embodiedは多段階で漸進的なディープトレーニングレシピを設計しました。

まず、モデルは膨大なマルチモーダルコーパスおよび空間・具身データを用いて知覚能力を向上させ、データの品質と規模に応じてプリトレーニング（Pre-train：600Bトークン以上）とミッドトレーニング（Mid-train：30M件以上のデータ）の2つのフェーズに分け、モデルの認知基盤を固めます。それに続くサervisedファインチューニング（SFT：Supervised Fine-Tuning）は、高品質な推論データを用いてモデルの推論能力を引き出します。

複雑な具身タスクにおいて最適な行動戦略を見つけ、自己進化する推論能力を獲得させるため、HY-Embodied-0.5は具身タスク用に最適化された一連のポストトレーニングフローを導入しました。

トレーニングプロセスでは、まず強化学習（Reinforcement Learning）を用いてモデルにより良い行動パターンを自由に探索させるよう促し、その後、反復的な自己進化パラダイムを導入します。モデルは拒否サンプリングファインチューニング（RFT：Rejection Sampling Fine-Tuning）を通じて、モデルが評価した高品質な推論プロセスを保持し、思考パターンを強化することで、偶発的な成功を確実な能力へと変換します。

さらにHY-Embodied-0.5は、オンライン蒸留（Online Distillation）戦略を導入し、エッジ側の小規模モデルがまず出力を試みるようにし、大規模モデルは小規模モデルの「誤りのポイント」に対してリアルタイムで直接指導を行うことで、大規模モデルの能力をよりコンパクトなエッジ側モデルへ移行させます。

結び

ベースモデルは、現実世界のエージェント（Agent）への重要な基盤です。

大規模言語モデル（LLM）エージェントは、複雑で抽象的な問題の解決において驚くべき推論能力と想像力を示していますが、私たちはより切実に、モデルがより広範な物理的な現実世界で活躍することを望んでいます。HY-Embodiedシリーズのモデルが探求しているように、大規模モデルの認知リンクは、物理的な操作やロボット制御へと成功裏に拡張されています。

将来、具身知能の基盤が継続的に進化していくにつれ、AIが仮想と現実の境界を真に越え、現実世界でより広範かつ深遠なアプリケーションを実現することを期待しています。

GitHub：

https://github.com/Tencent-Hunyuan/HY-Embodied

Huggingface：

https://huggingface.co/tencent/HY-Embodied-0.5

WeChatで開く

原文を表示

腾讯混元 2026-04-09 17:07 广西

image

基座模型是通向真实世界Agent的重要基础。

本文由《量子位》4 月 8 日首发。

让大模型真正走进现实世界，是当下最迫切的需求之一。

但美好的愿景，在真实的物理环境面前却屡屡碰壁。

那些在文本世界里对答如流的通用视觉语言模型（VLM），一旦装进机器人脑子里，常常显得笨手笨脚。

原因很简单——物理世界容不得半点含糊。通用模型平时看图“大差不差”就行，但具身智能需要的是极度精细的三维空间感知，以及涉及到真实物理交互的预测和规划。拿着“做题家”的脑子去干真实的体力活，自然水土不服。

面对这个行业痛点，腾讯混元团队联合腾讯Robotics X实验室开发的HY-Embodied-0.5系列基础模型交出了一份相当硬核的答卷。这并非是一次在通用大模型上的简单“微调”，而是一场从底层架构到训练范式，完全为“具身智能”量身定制的重构。

这一次，HY-Embodied团队推出了两款主力模型：

MoT-2B（总参数4B，仅激活2B），采用创新的混合Transformer（MoT）架构，主打端侧部署和实时响应。

MoE-32B（总参数407B，激活32B），追求复杂推理与极致性能。

为了让AI真正“看懂”物理空间并做出准确反应，团队在架构、数据组织和训练流程上做出了大量创新。

他们不仅采用了原生分辨率的视觉编码器，还针对性地采用了Mixture-of-Transformers（MoT）架构，并引入视觉潜在Token机制，进一步强化了视觉与语言空间的对齐。

在训练端，模型先由超过100M的高质量具身专属数据打底，并引入迭代式后训练范式，应用了拒绝采样微调、强化学习、在线蒸馏等方案，驱动模型思维链自主进化，并将大模型的能力高保真地“压缩”传授给仅有2B激活参数的轻量级变体。

HY-Embodied系列模型不仅在开源Benchmark上达成了断层式的领先，更在物理实操中证明了自己绝非纸上谈兵：通过将VLM底座应用在VLA（视觉-语言-动作）模型，直接让其接管现实世界中的机器人控制。

在涵盖感知、推理、规划的22项权威评测榜单中，HY-Embodied-0.5展现了极其恐怖的战斗力。小身板的MoT-2B模型共取得16项最佳，超越参数更大的通用底座Qwen3-VL-4B和具身专属模型RoboBrain2.5、MiMo-Embodied等。

△ HY-Embodied-0.5 2B参数量评测结果

而完全体的MoE-A32B在具身测评标准下的综合成绩与目前的行业标杆Gemini 3.0 Pro等抗衡。

△ HY-Embodied-0.5旗舰模型评测结果

除了领先的评测性能，2B小模型也有不错的使用体验。在视觉感知和具身任务上，不仅有准确的结果，还有清晰合理的推理过程。

将更强的VLM基座应用到机器人实机任务上也能取得更好的效果。预训练的HY-Embodied-0.5基座（右图）相比基线模型（左图）。

使用相同动作训练数据，在打包、堆叠、悬挂三个实机任务上，HY-Embodied基座相比于pi0和pi0.5初始化的模型能取得更好的效果。

视觉+语言混合MoT架构

多模态训练中，由于视觉信号信息量极大，模型在拼命“看懂”图像时，往往会挤占原本属于语言的参数空间，导致“看图厉害了，说话变笨了”的灾难性遗忘，这在2B规模的端侧模型上尤为明显。

HY-Embodied-0.5在架构上致力于实现模态自适应与无损感知。也就是说，端侧模型（如HY-Embodied-0.5-MoT-2B）不仅要在不丢失信息的前提下看清输入，还要让视觉和语言“各司其职”，在互不干扰中实现性能翻倍。

△ HY-Embodied-0.5 MoT-2B架构图

为了打破端侧小模型的性能瓶颈，HY-Embodied在基础VLM架构上进行了深度重构，其核心包含三个关键部分：

HY-ViT 2.0（原生分辨率视觉编码器）

HY-ViT 2.0不仅原生支持任意分辨率输入，还针对端侧专门打造了400M参数的高效版本。它通过从更强大的内部大模型进行知识蒸馏，并引入视觉重建监督和微型LLM的语言监督，确保喂给大语言模型的视觉信号做到信息损失最小化。

MoT计算与双向注意力（混合Transformer架构）

为了让视觉和语言不打架，模型引入了MoT机制，为视觉分支赋予了非共享参数。具体而言，它复制了语言模型的FFN和QKV参数并用预训练权重初始化，专门交由视觉Token计算。这使得模型参数量翻倍但推理效率几乎不受影响。

同时，由于图像不具备语言那种单向序列的特性，模型专门为视觉Token解锁了独立的全向（双向）注意力机制，并引入视觉Next-code预测任务（利用将每个8x8图像块压缩为单一代码的2k离散词表作为监督），提供更强的视觉监督信号。

Visual Latent Tokens（视觉潜在视语桥梁）

受潜在思维机制的启发，HY-Embodied-0.5在每一个视觉输入序列（如图片或视频帧）的末尾，都追加了一个专属的“视觉潜在Token”。在预训练阶段，这些Token会直接接受来自超大ViT全局特征的监督。它们就像是连接视觉与文本内容的桥梁，极大地拉升了端侧小模型的整体感知容量和细粒度理解能力。

大规模高质量具身+空间数据

△ HY-Embodied-0.5训练数据组成

HY-Embodied-0.5团队希望模型能够像真实的物理智能体（Agent）一样，建立从“立体空间感知”到“逻辑规划执行”的完整认知链路。为了给模型注入真实的物理直觉，HY-Embodied-0.5摒弃了零碎的数据堆砌，将海量基础视觉数据与高度专业的具身、空间认知数据进行了深度整合：

视觉感知

视觉感知数据系统性地为模型构筑了全方位、多维度的“底层视觉理解”能力。从宏观的二维与三维全维检测、感知物理环境的深度估计，到微观的高分辨率语义分割，乃至极具挑战的密集目标指向与精确计数。这些数据让模型不仅建立起了对复杂场景像素级的精准把控，更为后续精细化的具身物理操作奠定了坚实可靠的视觉锚定基础。

空间感知

空间感知数据系统性地注入了专为三维环境打造的“空间感”。从几何深度、空间拓扑，到跨视角的物理对应，乃至严苛的绝对物理度量。这些数据让模型彻底打破了二维像素的局限，建立起了真实的立体几何直觉。

具身感知

HY-Embodied-0.5将真实世界的物理操作数据拆解为严密的三个层级：感知、语义理解与高级规划。它涵盖了从基础的视觉锚定、可供性预测，到提取自真实机械臂第一视角的长视野动作推理与轨迹预测。通过这些数据，模型不仅学会了评估当前的任务状态，还能在包含视觉谜题和直觉物理规律的复杂场景中，精确生成下一步的动作序列。

多阶段长链推理后训练

HY-Embodied-0.5在训练范式上致力于实现“从基础感知到深度思考，再到端侧部署”的完美闭环。也就是说，模型不仅要在海量数据中打好视觉和语言的地基，还要通过自我演化真正掌握长链条逻辑推理能力。

△ HY-Embodied-0.5训练流程

为了培养出既懂常识又具备强悍具身推理能力的模型，HY-Embodied设计了一套多阶段、渐进式的深度训练配方。

首先，模型在海量多模态语料，以及空间和具身数据中提升自身感知能力，按照数据质量和规模分为预训练（Pre-train，超过600B token）和中程训练（Mid-train，超过30M条数据）两部分，打好模型的认知地基。紧接着的监督微调（SFT）更在高质量的推理数据中激发模型的推理能力。

为了让模型在复杂的具身任务中找到最优行动策略、获得自我进化的推理能力，HY-Embodied-0.5引入了一系列专为具身任务优化的后训练流程。

在训练过程中，先利用强化学习鼓励模型自由探索出更好的行为模式，而后引入迭代式的自我演化范式。模型通过拒绝采样微调（RFT），将模型评判出的高质量推理过程保留下来，巩固了模型的思维模式，将偶然的成功转化为可靠的能力。

更进一步，HY-Embodied-0.5通过引入在线蒸馏策略，让端侧小模型自己先尝试输出，大模型则直接针对小模型“犯错的节骨眼”进行实时指导，将大模型的能力转移给更紧凑的端侧模型。

结语

基座模型是通向真实世界Agent的重要基础。

LLM Agent在解决复杂抽象问题上已经展现出了惊人的推演能力与想象力，但我们更迫切地希望，模型能在更广阔的物理现实中大展拳脚。正如HY-Embodied系列模型所探索的那样，大模型的认知链路正在被成功延伸至物理实操与机器人控制中。

期待在未来，随着具身智能基座的不断演进，AI能够真正跨越虚实边界，在真实世界中落地更广泛、更深远的应用。

GitHub：

https://github.com/Tencent-Hunyuan/HY-Embodied

Huggingface：

https://huggingface.co/tencent/HY-Embodied-0.5

跳转微信打开

この記事をシェア

腾讯混元★42026年4月23日 18:50

Hy3プレビュー版を公開・オープンソース化：混元再構築後の初モデル、エージェント能力が大幅に向上

腾讯は2026年4月、混元Hy3プレビュー版を公開・オープンソース化した。総パラメータ295B、アクティブ21Bの混合専門家モデルで、高速・低速思考を融合しエージェント能力を大幅に向上させた。

腾讯混元★42026年4月16日 11:31

テンセント混元3D世界モデル2.0をリリース：ゲームワークフローとシームレスに連携

テンセントが混元3D世界モデル2.0を公開・オープンソース化した。この多モーダル世界モデルは、テキスト・画像・動画から3D世界を生成・再構築・シミュレーションし、ゲームワークフローと連携してマップやステージのプロトタイプを迅速に作成できる。

腾讯混元★32026年3月18日 18:34

テンセント最新決算：混元AIの性能が継続的に向上

テンセントが2025年第4四半期および通期の決算を発表し、同社のAIモデル「混元」の性能が継続的に向上していることを明らかにした。

ニュース一覧に戻る元記事を読む

腾讯混元·2026年4月9日 18:07·約12分で読める

テンセントRobotics Xラボと混元が2Bエンボディードモデルを共同開発：22項目中16項目で最高評価

#具身智能 #视觉语言模型 #机器人控制 #混合Transformer #腾讯 #ベンチマーク

TL;DR

AI深層分析2026年4月9日 21:42

重要/ 5段階

深度40%

キーポイント

具身智能专用模型架构创新

两款主力模型定位明确

MoT-2B（总参数4B，激活2B）主打端侧部署和实时响应；MoE-32B（总参数407B，激活32B）追求复杂推理与极致性能，满足不同场景需求。

评测表现断层式领先

训练数据与范式创新

模型基于超过100M的高质量具身专属数据，采用迭代式后训练范式，应用拒绝采样微调、强化学习、在线蒸馏等方案，驱动模型思维链自主进化。

实际应用验证

通过将VLM底座应用于VLA（视觉-语言-动作）模型，直接让模型接管现实世界中的机器人控制，证明了其并非纸上谈兵。

実機タスクでの性能向上

視覚と言語のMoTアーキテクチャ

影響分析・編集コメントを表示

影響分析

編集コメント

腾讯混元 2026-04-09 17:07 广西

基盤モデルは、実世界のエージェント（Agent）への重要な基礎です。

本記事は『量子位』により4月8日に初めて公開されました。

大規模言語モデルを真に現実世界へ導入することは、現在最も緊急性の高いニーズの一つです。

しかし、その美しいビジョンは、実際の物理環境の前でしばしば壁にぶつかります。

今回、HY-Embodiedチームは二つの主力モデルをリリースしました：

MoE-32B（総パラメータ4070億、アクティブパラメータ320億）は、複雑な推論と極致の性能を追求します。

△ HY-Embodied-0.5 2Bパラメータ版の評価結果

△ HY-Embodied-0.5 フラッグシップモデルの評価結果

視覚と言語を統合したMoT（Mixture of Transformers）アーキテクチャ

△ HY-Embodied-0.5 MoT-2Bのアーキテクチャ図

HY-ViT 2.0（ネイティブ解像度対応ビジュアルエンコーダー）

MoT計算と双方向アテンション（混合Transformerアーキテクチャ）

Visual Latent Tokens（視覚潜在トークン：視覚と言語の架け橋）

大規模で高品質な具身＋空間データ

△ HY-Embodied-0.5の訓練データ構成

視覚知覚

空間知覚

具身知覚

マルチステージ長連鎖推論後学習

△ HY-Embodiedのトレーニングフロー

結び

ベースモデルは、現実世界のエージェント（Agent）への重要な基盤です。

GitHub：

https://github.com/Tencent-Hunyuan/HY-Embodied

Huggingface：

https://huggingface.co/tencent/HY-Embodied-0.5

WeChatで開く

原文を表示

腾讯混元 2026-04-09 17:07 广西

image

基座模型是通向真实世界Agent的重要基础。

本文由《量子位》4 月 8 日首发。

让大模型真正走进现实世界，是当下最迫切的需求之一。

但美好的愿景，在真实的物理环境面前却屡屡碰壁。

那些在文本世界里对答如流的通用视觉语言模型（VLM），一旦装进机器人脑子里，常常显得笨手笨脚。

这一次，HY-Embodied团队推出了两款主力模型：

MoT-2B（总参数4B，仅激活2B），采用创新的混合Transformer（MoT）架构，主打端侧部署和实时响应。

MoE-32B（总参数407B，激活32B），追求复杂推理与极致性能。

为了让AI真正“看懂”物理空间并做出准确反应，团队在架构、数据组织和训练流程上做出了大量创新。

△ HY-Embodied-0.5 2B参数量评测结果

而完全体的MoE-A32B在具身测评标准下的综合成绩与目前的行业标杆Gemini 3.0 Pro等抗衡。

△ HY-Embodied-0.5旗舰模型评测结果

除了领先的评测性能，2B小模型也有不错的使用体验。在视觉感知和具身任务上，不仅有准确的结果，还有清晰合理的推理过程。

将更强的VLM基座应用到机器人实机任务上也能取得更好的效果。预训练的HY-Embodied-0.5基座（右图）相比基线模型（左图）。

使用相同动作训练数据，在打包、堆叠、悬挂三个实机任务上，HY-Embodied基座相比于pi0和pi0.5初始化的模型能取得更好的效果。

视觉+语言混合MoT架构

△ HY-Embodied-0.5 MoT-2B架构图

为了打破端侧小模型的性能瓶颈，HY-Embodied在基础VLM架构上进行了深度重构，其核心包含三个关键部分：

HY-ViT 2.0（原生分辨率视觉编码器）

MoT计算与双向注意力（混合Transformer架构）

Visual Latent Tokens（视觉潜在视语桥梁）

大规模高质量具身+空间数据

△ HY-Embodied-0.5训练数据组成

视觉感知

空间感知

具身感知

多阶段长链推理后训练

△ HY-Embodied-0.5训练流程

为了培养出既懂常识又具备强悍具身推理能力的模型，HY-Embodied设计了一套多阶段、渐进式的深度训练配方。

为了让模型在复杂的具身任务中找到最优行动策略、获得自我进化的推理能力，HY-Embodied-0.5引入了一系列专为具身任务优化的后训练流程。

结语

基座模型是通向真实世界Agent的重要基础。

期待在未来，随着具身智能基座的不断演进，AI能够真正跨越虚实边界，在真实世界中落地更广泛、更深远的应用。

GitHub：

https://github.com/Tencent-Hunyuan/HY-Embodied

Huggingface：

https://huggingface.co/tencent/HY-Embodied-0.5

跳转微信打开

この記事をシェア

腾讯混元★42026年4月23日 18:50

Hy3プレビュー版を公開・オープンソース化：混元再構築後の初モデル、エージェント能力が大幅に向上

腾讯混元★42026年4月16日 11:31

テンセント混元3D世界モデル2.0をリリース：ゲームワークフローとシームレスに連携

腾讯混元★32026年3月18日 18:34

テンセント最新決算：混元AIの性能が継続的に向上

テンセントが2025年第4四半期および通期の決算を発表し、同社のAIモデル「混元」の性能が継続的に向上していることを明らかにした。

ニュース一覧に戻る元記事を読む

テンセントRobotics Xラボと混元が2Bエンボディードモデルを共同開発：22項目中16項目で最高評価

キーポイント

影響分析

編集コメント

関連記事

テンセントRobotics Xラボと混元が2Bエンボディードモデルを共同開発：22項目中16項目で最高評価

キーポイント

影響分析

編集コメント

関連記事