腾讯混元·2026年3月4日 18:03·約41分

CVPR 2026採択結果発表、テンセントの混元モデル関連論文25本以上が選出

#CVPR 2026 #動画生成 #マルチモーダルAI #3D生成 #腾讯混元

TL;DR

CVPR 2026において腾讯混元が24本以上の論文を採用し、動画生成の報酬モデルやマルチモーダル統合など多領域で技術的進捗を示した。

AI深層分析2026年4月26日 09:36

重要/ 5段階

深度40%

キーポイント

CVPR 2026の統計的特徴

1万6千件以上の応募に対し4090件が採択され、受容率は25.42%。多模態革新と持続可能AIが主要な研究トレンドとなっている。

腾讯混元の技術的貢献

画像編集、動画生成（後訓練・ストリーミング）、3D生成など多岐にわたる24本以上の論文が採用され、業界での存在感を示した。

動画生成の課題解決

SoliRewardやUniAVGenなどの論文により、動画生成における報酬ハッキング、ノイズ耐性、および音声と映像の同期精度が向上した。

リアルタイムインタラクティブ技術

StreamAvatarやActAvatarなどの研究により、低遅延のストリーミング生成と高精度なリップシンク・動作制御が可能になり、リアルタイムインタラクティブ体験への応用が期待される。

StreamAvatar：实时流式交互式数字人生成

提出两阶段自回归蒸馏与对抗式精炼框架，将高质量非因果模型蒸馏为高效少步块因果自回归模型，实现低延迟、高保真的720P无限长视频生成。

Meta-CoT：兼顾粒度与泛化的图像编辑范式

通过三元组认知分解和元任务操作分解两级机制，仅训练5个基础元任务即可泛化至各类复杂场景，综合性能较基线提升15.8%。

JarvisEvo：自进化照片编辑智能体

设计交错式多模态思维链（iMCoT）与协同编辑-评估器策略优化（SEPO），有效解决指令幻觉和奖励黑客问题，精细编辑胜率显著优于基线。

影響分析・編集コメントを表示

影響分析

このニュースは、腾讯混元がAI画像・動画生成分野において継続的に高い研究出力を維持していることを示しており、特に動画生成の品質とリアルタイム性に関する技術競争が激化していることを示唆しています。業界全体として、単なる生成能力だけでなく、制御可能性や効率性（ストリーミング、低パラメータ）への注目が高まっていることが読み取れます。

編集コメント

腾讯混元の論文採用数は過去最高水準であり、動画生成技術が「作成」から「制御・統合・リアルタイム化」へと成熟段階に入ったことを示しています。特に報酬モデルの安定化とマルチモーダル同期は、実用化に向けた重要なマイルストーンです。

2026年3月4日 17時03分広東

image

この分野は依然として人工知能（AI）の研究の最前線であり、その方向性はマルチモーダル（多様データ統合型）技術の革新や持続可能なAIなどの領域に焦点を当てています。

2026年度版の人工知能およびコンピュータビジョンにおける最高峰の国際会議であるCVPRは、6月にデンバー・コンベンションセンターで開催されます。公開データによると、CVPR 2026には16,092件の有効な論文提出があり、最終的に4,090件が採択されました。採用率は25.42%（拒否率74.58%）で、採択された論文は口頭発表やポスター展示などの形式で発表されます。

今回の大会では審査政策をさらに強化し、「Findings」ワークショップを新設しました。これは区域主席によって推薦された、本会議での採択には至らなかったものの価値ある論文1,717件を対象としています。全体的な傾向として、論文の提出数は爆発的に増加し続けており、この分野が現在も人工知能研究の最前線であることが示されています。研究の方向性はマルチモーダル技術の革新や持続可能なAIなどの領域に集中しています。

不十分な統計によると、騰訊混元（Tencent Hunyuan）からは24編以上の論文が今回のCVPR大会に採択されました。対象分野は以下の通りです：

画像編集タスクにおける思考連鎖（Chain of Thought）、ツール呼び出しなど

動画生成後のトレーニングにおける強化学習、動画の共同生成モデル、ストリーミング動画生成、動画生成の高速化など

3D制御可能生成モデル、テクスチャ生成、3D強化学習、インタラクティブな3D世界モデル、統一型3Dマルチモーダルモデルなど

以下に全論文の紹介を記します：

SoliReward：動画生成における報酬モデルの報酬ハッキングと注釈ノイズ問題の緩和

【内容概要】SoliRewardは、既存の方法が抱えるデータ注釈ノイズ、コミュニティベースのVLM（Vision-Language Model）型報酬モデル（RM）の探索不足、およびモデルの後学習段階で「報酬ハッキング」攻撃を受けやすいという核心的な問題を解決するための体系的な動画生成報酬モデル訓練フレームワークを提案します。データレベルでは、このフレームワークは低コストかつ拡張性の高い単一項目二元注釈（single-item binary annotations）とクロスプロンプトペアリング戦略（cross-prompt pairing strategy）を採用し、大量の高品質な嗜好データセットを構築します。アーキテクチャレベルでは、階層的漸進的クエリアテンション（HPQA: Hierarchical Progressive Query Attention）メカニズムを導入し、複数のモデル層の特征を明示的に集約することで、より頑健なスカラー報酬信号を抽出します。

さらに、報酬ハッキング現象を効果的に緩和するため、SoliRewardは改良版のBT-WT（Bradley-Terry with Win-Tie）損失関数を提案しました。この設計では、「勝利・引き分け」正則化により正样本のスコア分布を導入し、これにより報酬モデルの不完美さに起因する誤判定サンプルに対する異常な採点によって引き起こされる負の最適化を大幅に軽減します。その結果、後学習段階においてより微細で信頼性の高い嗜好指導が可能となります。実験结果表明、この手法は主体の歪みや物理法則の一貫性において、報酬モデル自体の指標および動画生成モデルの後学習における実際の効果を顕著に向上させました。

論文アドレス：https://arxiv.org/abs/2512.22170

UniAVGen：非対称クロスモーダルインタラクションに基づく統一型音声・映像生成モデル

【内容简介】开源音视频生成における唇形不同步や意味的不整合という業界の課題を打破するため、南京大学と腾讯混元などのチームが共同で UniAVGen を発表しました。これは業界初の人像に特化した統一された音声・映像連合生成フレームワークです。双分支連合合成アーキテクチャに基づき、革新的な非対称クロスモーダル相互作用メカニズムを採用し、顔面知覚モジュレーションモジュールによって顔の核心的な相互作用領域を正確にアンカーします。さらに、モーダル知覚ノンクラスフィアガイド戦略（Classifier-Free Guidance）を組み合わせることでクロスモーダルの関連性を強化し、人像の音声・映像において時空間的な正確な同期と、音色および感情の高レベルな適合を実現しています。このフレームワークは、わずか 130 万の訓練サンプルのみで、3,000 万級サンプルモデルを上回る性能を達成しました。人像の音声・映像連合生成・継続生成、動画への音声付与、音声による動画生成という中核タスクを一括して解決し、実写人像の生成効果において最大限の品質を発揮するだけでなく、アニメなどのクロスドメイン視覚スタイルにも対応可能で、高忠実度かつ強力な汎化能力を持つ人像音声・映像協働創作を実現します。

論文アドレス：https://arxiv.org/abs/2511.03334

3、Harmony：タスク間協調による音声・映像の協調生成の実現

【内容简介】オープンソースモデルが音声・映像連合生成において同期を合わせることが難しいという課題に対し、私たちは音声・映像連合拡散プロセスの底層メカニズムを深く分析し、新たな音声・映像同期フレームワークである Harmony を提案しました。音声・映像潜在変数の共同ノイズ付与進化によって生じる「音画同期ドリフト」を解決するため、「タスク間協調（Cross-Task Collaboration）」という訓練パラダイムを革新的に提唱し、「音声生成による映像」と「映像生成による音声」という双方向タスクの強力な教師信号を利用して、同期プロセスを安定化させます。同時に、モデル内部にはグローバル・ローカルデカップリング相互作用モジュール（Global-Local Decoupled Interaction Module）を設計し、時系列とスタイル特徴を微細に処理します。また、音声・映像同期強化のために SyncCFG（同期強化型ガイド）技術を提案し、推論段階で明示的にクロスモーダル同期信号を剥離して増幅します。多数の実験により、Harmony は生成忠実度において優れたパフォーマンスを示すだけでなく、高レベルの音声・映像同期生成も実現できることが証明されました。

image

論文アドレス：https://arxiv.org/abs/2511.21579

4、ActAvatar：話者向けバーチャルアバターの時系列知覚に基づく精密動作制御

【内容简介】ActAvatar はデジタルヒューマン生成向けの精密動作制御フレームワークです。既存の音声駆動型デジタルヒューマン手法は一般的に、テキスト指示への追従能力が弱く、動作と音声内容の時系列同期が欠如しており、追加的な姿勢シーケンスなどの制御信号を必要とするという問題を抱えています。

ActAvatar は 3 つの中核技術革新によってこれらの課題を解決します：（1）フェーズ知覚クロスアテンションメカニズム（PACA: Phase-Aware Cross-Attention Mechanism）により、テキストプロンプトをグローバル記述と時間アンカー付きのフェーズ記述に分解し、動作の意味と時間ウィンドウの正確な同期を実現します。（2）漸進的音視覚アライメント戦略を採用し、Transformer の浅い層が優先的にテキストに応答して動作構造を構築し、深い層が徐々に音声の影響を増強して唇形を精修することで、両モダルの相互干渉を防ぎます。（3）2 段階訓練パラダイムにより、まず大規模データ上で堅牢な音声・視覚対応関係を確立し、その後構造化ラベル注入によって時系列動作制御能力を追加します。これにより、壊滅的忘却（Catastrophic Forgetting）を効果的に防止します。ActAvatar はわずか 5B パラメータで 720p 解像度において高品質なデジタルヒューマン動画を生成可能であり、動作制御精度、唇形同期、視覚の質において既存手法を上回ります。また、同等品質の手法と比較して推論効率が 4 倍以上向上しています。

論文アドレス：https://arxiv.org/abs/2512.19546

5、StreamAvatar：リアルタイム対話型人体バーチャルアバター向けのストリーミング拡散モデル

【内容简介】リアルタイムストリーミング型インタラクティブデジタルヒューマン動画生成は、次世代の没入型デジタルヒューマン体験（ビデオチャットやインタラクティブカスタマーサポートなど）を実現するための鍵となる技術です。しかし、既存のデジタルヒューマン動画拡散モデルは、非因果アーキテクチャと過大な計算コストのためにリアルタイムストリーミング生成が困難であり、さらにデジタルヒュームの「聴取」状態を適切にモデル化している事例もほとんどありません。そこで私たちは、2段階の自己回帰蒸留と敵対的洗練フレームワークを提案し、参照アテンションプール（Reference Sink）、参照アンカーに基づく位置再エンコーディング（Reference-Anchored Positional Re-encoding）、一貫性知覚判别器（Consistency-Aware Discriminator）などの戦略を導入することで、長編動画生成の一貫性と安定性を向上させました。これにより、高品質な多ステップ非因果モデルを効率的な少ステップブロック因果自己回帰モデルへと蒸留することに成功しています。本フレームワークに基づき、「StreamAvatar」を発表しました。これは単一サンプルで動作するリアルタイムストリーミング型インタラクティブデジタルヒューマン動画モデルであり、低遅延で高精度な口形、自然な聴取フィードバック、そして滑らかな肢体ジェスチャーを含む高忠実度720Pの無限長動画を生成できます。多数の実験により、StreamAvatar は大幅な速度向上を達成しつつも、画像品質やインタラクション品質などの次元において既存手法を上回ることが示されました。

image

論文アドレス：https://arxiv.org/abs/2512.22065

6、Meta-CoT: 画像編集の粒度と汎化能力の向上

【内容简介】本論文は画像編集分野における思考連鎖（Chain of Thought: CoT）のパラダイムに焦点を当て、既存手法が「細粒度指令追従」と「タスク間汎化能力」の両立を困難としている課題を解決します。既存の研究には主に2つのアプローチがあります。一つは専用タスクのためにCoTテンプレートを設計するもので、より細粒度的な編集制御を実現できる一方で、汎化性は低いです。もう一つは汎用的なCoTパラダイムですが、推論粒度が不十分であるため、ユーザー指令における詳細な要求を正確に満たすことができません。さらに、画像編集分野には多様なシナリオをカバーする評価基準が不足しており、異なる手法間の性能比較が客観的に行えないという問題があります。

本論文では、Meta-CoT（メタ思考連鎖）編集パラダイムを提案し、2段階の分解機構を通じて「粒度」と「汎化」の両方の課題に対処します。第一段階は三元組認知分解であり、複雑な編集指令を「タスクタイプ - 編集目標 - 理解粒度」の三元組に分解します。これにより、「タスク要約 - 多段階思考 - 目標網羅」という3ステップの推論フローを設計し、モデルが逐層的に意味理解を深化させることを強制することで、粒度不足の問題を根本的に解決します。第二段階はメタタスク操作分解であり、追加、削除、置換、調整、生成という5つの基本メタタスクを抽出しました。すべての複雑な編集はこのメタタスクの組み合わせによって実現され、モデルは少数のメタタスク訓練のみで、未見の多様な複雑シナリオへも汎化できるようになります。さらに、論文ではCoT-Edit Alignment Reward（CoT-編集アライメント報酬）という新たな報酬機構を設計しました。これは視覚言語モデル（Visual Language Model: VLM）を用いて推論ステップと編集結果の一致度を定量化し、Flow-GRPOアルゴリズムを組み合わせてモデルのアライメント効果を最適化するものです。また、著者らは物体編集、スタイル転送、属性調整などの中核シナリオを網羅した21の典型タスクを含む包括的評価基準も構築しました。

実験結果は本手法の優位性を検証しました：独自に構築した21タスク基準およびImgEdit公開データセットにおいて、Meta-CoTは純粋な編集ベースラインと比較して総合性能が15.8%向上し、わずか5つのメタタスクのみを訓練するだけで全タスク訓練と同等の効果を達成しました。また、指示従順度や詳細再現度といった核心指標において、BagelやEditAnythingなどの既存SOTA（State-of-the-Art：最先端）手法を全面的に上回り、画像編集におけるCoT（Chain of Thought：思考連鎖）のパラダイム設計に対して新たな理論的枠組みと実践的アプローチを提供しました。

7、JarvisEvo：エディターと評価器の協調最適化による自己進化型写真編集エージェント

【内容概要】本論文は、エージェント画像編集分野における2つの課題に焦点を当てています。第一に、純粋なテキストベースのCoT推論には情報ボトルネックが存在し、容易に指示幻覚を引き起こすため、視覚フィードバックを通じて編集プロセスを検証することができない点です。第二に、強化学習において静的な報酬モデルと動的な方策最適化が一致せず、Reward hacking（報酬ハッキング）問題が発生する点です。

論文ではJarvisEvoを提案します。これは編集と評価の二重タスクを融合させた自己進化型画像編集エージェントソリューションであり、主な貢献は以下の3点です。第一に、交差型多模態思考連鎖（iMCoT：interleaved Multimodal Chain of Thought）メカニズムを設計しました。「テキスト仮説 - 画像テスト - 反省調整」という閉ループを通じて視覚フィードバックを推論プロセスに組み込み、純粋なテキストベースのCoTによる情報バリアを打破し、指示従順度と編集精度を向上させます。第二に、協調エディター-評価器方策最適化（SEPO：Synergistic Editor-Policy Optimizer）フレームワークを提案しました。これは二つの最適化ループから構成され、エディターは自己評価スコアを用いて内在的報酬を生成し、評価器は人間のオフライン注釈データを通じて継続的に最適化されることで、報酬ハッキングと自己欺瞞を効果的に抑制します。第三に、Adobe Lightroom（200種以上の専門写真編集ツール）とQwen-Image-Editをシームレスに統合し、保持型編集と生成型編集の両方をサポートすることで、精密なレタッチと創造的な合成のニーズを同時に満たします。

訓練プロセスでは、JarvisEvoは3段階を採用しています。まず20万件の注釈データに基づく教師あり微調整でモデル能力を初期化し、次にSEPOによる強化学習段階で編集と評価の方策を最適化し、最後に5千件の反省サンプルを用いた微調整で自己修正能力を強化します。著者らは、中国語・英語の二言語対応、30種類のタスクタイプ、10の大規模シーンを網羅した23万件のサンプルからなるArtEditデータセットおよび対応するArtEdit-Bench基準を構築しました。

実験結果によると、ArtEdit-Benchにおける保持型編集タスクでは、JarvisEvoはNano-Bananaと比較して平均で18.95%向上し、ピクセルレベルでのコンテンツ忠実度は44.96%も向上しました。生成型編集の性能は主要な商用モデルと同等です。評価能力においては、人間スコアとの相関（SRCC=0.7243、PLCC=0.7116）が専門評価モデルや汎用多模態大規模言語モデルを上回りました。人間による評価では精密編集の勝率が49%に達し、ベースラインモデルを大きく上回り、本手法が指示幻覚と報酬ハッキング問題の解決において有効であることを実証しました。これは汎用的な画像編集エージェントに対する新たなパラダイムを提供するものです。

論文アドレス：https://arxiv.org/abs/2511.23002

8、Re-Align：文脈画像生成・編集のための構造化推論誘導アライメント

【内容概要】本論文ではRe-Alignを提案します。これは構造化推論誘導アライメントに基づく統一フレームワークであり、核心目標はモデルの理解能力と生成能力の間のギャップを埋めると同時に、文脈画像生成および編集タスクをサポートすることです。その主な貢献は以下の3点です。

第一に、文脈思考連鎖（IC-CoT：In-Context Chain of Thought）による構造化推論パラダイムを設計しました。セマンティック誘導と参照関連付けの二つのコンポーネントにより、セマンティック指示と参照画像の関連性をデカップリング（分離）します。セマンティック誘導は明確な目標画像記述を生成し、参照関連付けは各参照画像の役割を明確に定義することで、複数画像入力時の混乱を防ぎ、生成プロセスに対して精密なガイダンスを提供します。

第二に、効果的な強化学習訓練手法を提案しました。代替報酬（CLIPを用いてIC-CoT内の記述と生成画像の類似度を計算）を導入し、推論と生成のアライメント度を測定すると同時に、推論誘導多様性戦略を設計しました。これは多様な推論軌跡を生成してサンプルの差異性を高め、組対方策最適化（GRPO：Group Relative Policy Optimization）の訓練プロセスを安定化させます。

三、Re-Align-410K という高品質データセットを構築し、「参考画像の準備 - 適応型指示生成 - 推論テキスト生成 - 対象画像合成 - 多角的フィルタリング」という自動化プロセスを通じて、主体駆動生成や属性移転編集など多様な ICGE（Image-Conditioned Generation and Editing）タスクをカバーし、モデル訓練におけるデータ品質を担保します。

訓練は2段階のプロセスを採用しています。第1段階では Re-Align-410K データセットに基づいて監督微調整を行い、IC-CoT（Chain-of-Thought）による画像生成能力を習得させます。第2段階では GRPO（Group Relative Policy Optimization）を用いて推論と生成の整合性を最適化し、代替報酬と多様性戦略を組み合わせてモデル性能を向上させます。実験は OmniContext と DreamOmni2Bench という 2 つの主要ベンチマークに基づき、BAGEL や OmniGen2 などの主流モデルと比較して行われました。その結果、Re-Align は両方のベンチマークで最も優れた総合性能を示し、平均スコアは 8.21 に達しました。特に多参考画像やシーンレベルタスクにおいて顕著な優位性を示し、プロンプトの遵守度と主体の一貫性においては基盤モデルを全面的に上回りました。アブレーション実験により、IC-CoT の構造化推論の有効性が検証され、推論なしまたは非構造化推論と比較して勝率はそれぞれ 20% と 16.25% 向上しました。このフレームワークは ICGE タスクにおける参照の混同や推論と生成のズレという核心的な課題を解決し、複雑な画像・テキスト交差プロンプトによる視覚的生成と編集のための新たなパラダイムを提供します。

論文アドレス：https://arxiv.org/abs/2601.05124

9、PromptEnhancer：微細粒度報酬を用いたテキストから画像への生成を最適化するプロンプトリライタ

【内容概要】本論文は、テキストから画像（T2I: Text-to-Image）生成分野における核心的な課題に焦点を当てています。すなわち、既存モデルは複雑なユーザープロンプトを正確に理解することが難しく、属性の紐付け、否定表現、組み合わせ関係といった微細な意味レベルで誤りが生じやすい点です。また、既存のプロンプトリライト手法には汎用性が欠けており、モデル固有の微調整や粗粒度の報酬信号に依存しているため、適応性と効果に限界があります。そこで本論文では、PromptEnhancer を提案します。これは、任意の事前学習済み T2I モデルの重みを一切変更することなく、プロンプトを最適化することで生成結果とユーザーの意図との整合性を高めることを目的とした、汎用的かつモデル非依存のプロンプトリライトフレームワークです。

訓練データについては、「ユーザープロンプトのシミュレーション - CoT とリライトされたプロンプトの生成 - 自動フィルタリング - 人手による選別」という4段階のプロセスを通じて高品質な監督学習用データセットを構築し、強化学習段階におけるポリシー整合化のために追加で5万件の独立したプロンプトも用意しました。実験は混元画像モデル（HunYuan Image Model）に基づいて行われ、フレームワークの有効性と汎用性が検証されました。その結果、PromptEnhancer は 24 の評価次元において T2I モデルの生成精度を平均で 5.1% 向上させました。特に類似関係（+17.3%）、反事実的推論（+17.2%）、数え上げ（+15.0%）といった複雑な意味タスクでの改善が顕著であり、代名詞の解析や表情の描写といった微細なシナリオにおいても 10% を超える性能向上を実現しました。このフレームワークは T2I モデルのアーキテクチャを変更する必要がなく、プラグアンドプレイモジュールとして主流モデルに容易に適用可能です。中英語バイリンガル環境でも安定して動作し、T2I 生成におけるプロンプト整合化の問題に対する汎用的かつ効率的な新ソリューションを提供します。

論文アドレス：https://arxiv.org/html/2509.04545v5

10、TAG-MoE：統一型生成混合専門家モデルのためのタスク知覚ゲート

【内容概要】本論文は、統一型画像生成・編集モデルにおける核心的な課題に焦点を当てています。すなわち、密結合拡散 Transformer アーキテクチャにおいて深刻なタスク干渉が存在し、局所的な編集（コンテンツの正確な保持が必要）と主体駆動生成（多様性の豊かさが求められる）といったタスク目標が互いに競合し、モデルが「中途半端な妥協」に陥ってしまう点です。また、既存の混合専門家（MoE: Mixture of Experts）パラダイムにおけるゲートネットワークは局所的な特徴のみに基づいており、グローバルなタスク意図を感知できず、効果的な専門家の特化（specialization）を実現できず、タスク干渉の問題を解決できていません。現在の分野では、MoE アーキテクチャはモデル容量の向上に寄与しますが、統一型生成・編集タスクの異質性に対して設計されたものではなく、タスク非依存なルーティングメカニズムがその性能発揮を制限しています。

論文では、タスク知能型ゲートに基づく MoE フレームワーク「TAG-MoE」を提案しています。このフレームワークの核心目標は、高次タスクセマンティクスを MoE のルーティング決定に注入し、専門家のタスク特異的専門化（specialization）を実現することで、タスク干渉を緩和することです。

訓練データについては、公開ベンチマークデータと独自開発の专有データを網羅した 1,100 万サンプルからなる大規模データセットを構築しました。LLM による多様な指示生成、専門モデルを用いたターゲット画像合成、逆タスク強化などの手法を通じて、データの品質とタスクカバレッジを確保しています。実験は ICE-Bench や EmuEdit-Bench など 5 つのベンチマークに基づき、ACE++ や Flux-Kontext といったオープンソースおよびクローズドソースのベースラインモデルと比較して行われました。

実験結果では、TAG-MoE はすべてのベンチマークにおいて最適な総合性能を達成しました。ICE-Bench における美学品質、指示アライメント（CLIP-cap）、タスク実行正確性（vllmqa）といった主要指標で、すべてのオープンソースモデルを上回り、その CLIP-cap スコアは GPT-4o などのクローズドソース製品をも凌駕しています。EmuEdit-Bench と GEdit-Bench においては、vllmqa 指標がそれぞれ 0.9284 および 0.8854 に達し、強力な指示実行能力を示しました。また、主体駆動生成タスクにおいても、顔のアイデンティティ保持やスタイル忠実度などの指標で SOTA（State-of-the-Art）を記録しています。アブレーション実験により、MoE アーキテクチャと予測アライメント正則化の必要性が検証され、専門家活性化パターンの分析からは、モデルがタスクと空間の二重特異性を備えた専門家の役割分担を形成していることが示されました。このフレームワークは、統一された生成・編集タスクにおける干渉問題を効果的に解決し、効率的かつ高性能な多目的視覚合成のための新たなアプローチを提供します。

論文アドレス：https://arxiv.org/abs/2601.08881

11、EffectMaker：カスタマイズされた視覚エフェクト制作のための推論と生成の統一化

【内容概要】視覚エフェクト制作の参入障壁の高さとデータ不足という課題に対応するため、腾讯混元（Tencent Hunyuan）はエフェクト生成フレームワーク「EffectMaker」とエフェクトデータセット「EffectData」を提案しました。EffectMaker は、マルチモーダル大規模言語モデル（MLLM）と拡散 Transformer（DiT）を革新的に融合させ、「セマンティクス＋視覚」の二重パス誘導メカニズムを構築しています。これにより、MLLM が参照ビデオの複雑なセマンティクスを深く解析し、ターゲット画像への適応ロジックをインテリジェントに推論すると同時に、DiT の文脈学習能力を活用して、ファインチューニング不要のエンドツーエンドエフェクト移行を実現しています。その結果、強力なゼロショット汎化能力を持ち、複雑な映画・テレビエフェクトをリアルに再現することが可能です。チームはまた、世界最大規模となるエフェクトデータセット「EffectData」の構築と公開計画を進めており、2,000 のエフェクトカテゴリ、10 万本を超えるエフェクトビデオを含み、関連分野の今後の研究にとって重要なリソース基盤を提供する予定です。

12、DisCa：蒸留互換性の学習可能特徴キャッシュによる動画拡散 Transformer の高速化

拡散モデルは動画生成領域において巨大な成功を収めていますが、それに伴い計算負荷が急激に増大しています。既存の加速手法の中で、特徴キャッシュ（Feature Caching）は訓練不要という特性と顕著な加速効果により高く評価されていますが、圧縮度を深めるほど、避けられない意味情報の喪失やディテールのぼやけを招きます。また、広く採用されているもう一つの手法である、訓練知能型ステップ蒸留（Step-distillation）は画像生成領域では優れた成果を示していますが、動画生成においては極めて少数のステップ数で劇的な性能劣化が生じます。さらに、サンプリングステップ数がより疎になるため、訓練不要の特徴キャッシュを単純に蒸留後のモデルに適用すると、品質損失がさらに深刻化する傾向があります。

本論文は、蒸留と互換性のある学習可能な特徴キャッシュ機構を初めて革新的に導入したものです。従来の拡散モデルにおける無訓練のヒューリスティック手法に代わり、軽量な学習可能ニューラル予測器を採用することで、高次元特徴の進化過程をより精密に捉えることを可能にしました。さらに、大規模ビデオモデルが高度に圧縮された蒸留の下で直面する課題を探求し、より安定かつ損失のない蒸留を実現するための保守的な制限付き平均流（Restricted MeanFlow）手法を提案しました。これらの取り組みにより、生成品質を維持したまま、加速の限界をさらに11.8倍まで引き上げることができました。多数の実験が本手法の有効性を十分に証明しています。

論文アドレス：https://arxiv.org/pdf/2602.05449

13、Flash-DMD：高効率な蒸留と統合強化学習による高忠実度少ステップ画像生成

私たちは、時間ステップ知覚型蒸留と強化学習を組み合わせる革新的なテキストから画像へのモデル蒸留フレームワークである「Flash-DMD」を提案しました。これにより、効率的な時間ステップ知覚型蒸留と統合強化学習を融合させることで、蒸留モデルの急速な収束を実現しつつ生成のリアリティを向上させました。その結果、教師モデル（DMD2）の訓練リソースのわずか2.1%しか消費せずに、教師モデルを超える性能を達成しています。

論文アドレス：https://arxiv.org/pdf/2511.20549

14、PoseMaster：スタイル化されたポーズ生成のための統一されたネイティブ3Dフレームワーク

【内容概要】ポーズのスタイル化は、目標とするポーズを持つスタイル化コンテンツを生成するものであり、2D/3Dおよびビデオ生成分野における基礎的なタスクです。3D領域において、既存の方法は通常「カスケード（連鎖）」戦略を採用しており、まず2D事前モデルを用いて画像のポーズを変更し、その後それを3Dアセットへと昇華させます。この非ネイティブな3Dアプローチは、深刻な誤差の蓄積を招くだけでなく、複雑な空間幾何学的変換也难以処理するため、生成の精度を制限しています。これらの課題を克服するために、私たちはポーズのスタイル化と3D生成を統合した3Dネイティブフレームワークである「PoseMaster」を提案しました。従来の方法が2Dスケルトン図に依存するのに対し、私たちは制御信号として直接3Dスケルトン（3D Skeletons）を利用します。3Dスケルトンは空間的なトポロジー関係をより正確に捉えるだけでなく、2D投影に伴う曖昧さを排除できます。このパラダイムをサポートするために、私たちは効率的なデータエンジンも構築し、「画像-3Dスケルトン-3Dメッシュ」のペアリングされた大規模データセットを生成しました。これにより、モデルは外観IDと幾何学的ポーズの対応関係を同時に学習できるようになります。広範な実験结果表明、PoseMasterは定性的・定量的指標の両方でSOTA（State-of-the-Art）手法を上回っています。さらに、このフレームワークが生成する3Dメッシュは入力された3Dスケルトンと本質的にトポロジー的整合性を備えており、スキニングモデル（Skinning Model）を組み合わせることでアニメーション可能なアセットを生成できます。これは、ユーザーが煩雑な手動のリダイレクトやスケルトンのアライメントを行うことなく、既存の動作シーケンスを直接そのスケルトンに適合させてモデルを駆動できることを意味し、実用性を大幅に向上させます。

image

論文アドレス：https://arxiv.org/abs/2506.21076

15、3D生成モデルの改変による自己回帰的レイアウト生成の実現

【内容简介】私たちは、3D 生成モデルを 3D 配置生成に適用するためのフレームワークである LaviGen を提案しました。従来のテキスト記述から物体の配置を推論する手法とは異なり、LaviGen はネイティブな 3D 空間上で直接操作を行い、配置生成を自己回帰プロセスとしてモデル化します。これにより、物体間の幾何学的関係や物理的制約を明示的にモデル化し、調和のとれた物理法則に則った 3D シーンを生成します。このプロセスをさらに最適化するために、私たちはシーン、物体、および指示情報を統合する適応型 3D 拡散モデル（diffusion model）を提案し、効率と空間的な精度を向上させるために二重ガイダンス自己展開蒸留メカニズム（dual-guidance self-rollout distillation mechanism）を採用しました。LayoutVLM ベンチマークにおける大規模な実験により、LaviGen は卓越した 3D 配置生成性能を実現し、物理的妥当性は既存の最先端手法よりも 19% 向上し、計算速度は 65% 向上することが示されました。私たちは関連するコードを公開します。

16、NaTex：潜在色拡散に基づくシームレスなテクスチャ生成

【内容简介】私たちは、3D 空間上で直接テクスチャの色を予測できるネイティブなテクスチャ生成フレームワークである NaTex を提案しました。従来の手法は通常、幾何学的条件付き多視点拡散モデル（MVDs）によって合成された 2D 多視点画像のベイク（baking）に依存しています。これに対し、NaTex は MVD プロセスに内在するいくつかの固有の限界を回避します。これらの限界には、補完（inpainting）が必要な隠れた領域の処理における困難さ、境界部での正確なメッシュとテクスチャのアライメント（mesh-texture alignment）の課題、そしてコンテンツや色の強度において視点間の一貫性と連続性を維持する難しさなどが含まれます。NaTex は、テクスチャを密な色点群として扱うという新たなパラダイムを提案し、上記の問題を解決します。この考え方に着想を得て、私たちは幾何学的知覚を持つ色点群 VAE（VAE）と多重制御拡散 Transformer（DiT）からなる潜在色拡散（latent color diffusion）を提案しました。これは 3D データのみを使用してゼロからトレーニングされ、テクスチャの再構築と生成に用いられます。

正確なアライメントを実現するために、私たちは位置埋め込みと幾何学的潜在変数（geometry latents）を通じて、直接的な 3D 空間情報を用いて DiT を条件付きで制御するネイティブ幾何学的制御を導入しました。VAE-DiT アーキテクチャは協調的に設計されており、幾何学的潜在変数は色 VAE と密接に結合された専用の幾何学ブランチから抽出されます。これにより、テクスチャと強く対応関係を持つ微細な表面ガイドが提供されます。これらの設計により、NaTex は強力な性能を発揮し、テクスチャの連続性とアライメントにおいて既存手法を大幅に上回ります。さらに、NaTex は優れた汎化能力を示し、トレーニングフリー（training-free）または簡単なファインチューニングを経ることで、マテリアル生成、テクスチャ最適化、部品分割とテクスチャリングなどのさまざまな下流タスクに応用可能です。

論文アドレス：https://arxiv.org/abs/2511.16317

17、LATTICE：大規模普及による高忠実度 3D 生成

【内容简介】私たちは、高忠実度 3D アセット生成のための新フレームワークである LATTICE を提案しました。これは、3D と 2D の生成モデルの間の品質とスケーラビリティにおけるギャップを埋めることを目的としています。2D 画像合成は固定された空間グリッドと成熟した Transformer アーキテクチャの恩恵を受けていますが、3D 生成は空間構造と微細な幾何学的表面をゼロから予測する必要があるため、根本的により困難です。既存の 3D 表現は計算コストが高く、構造化されスケーラブルな 3D アセットエンコーディング方案が欠けていることが、これらの課題をさらに悪化させています。この問題に対処するため、私たちは VoxSet を提案しました。これは半構造化表現手法であり、3D アセットを粗いボクセルグリッドにアンカーされたコンパクトな潜在ベクトル（latent vectors）の集合として圧縮することで、効率的かつ位置知覚的な生成を実現します。

VoxSet は、先行する VecSet 手法の単純性と圧縮の利点を維持しつつ、潜在空間に明示的な構造を導入し、位置埋め込み（positional embeddings）による生成誘導を可能にし、強力なトークンレベルでのテスト時拡張（test-time scaling）をサポートします。この表現に基づき、LATTICE は 2 つの段階からなるプロセスを採用しています：まず疎な体素化幾何アンカーを生成し、次に整流流 Transformer（Rectified Flow Transformer）を用いて微細な幾何構造を生成します。私たちの手法は核心が簡潔でありながら、任意解像度でのデコード、低コストなトレーニング、柔軟な推論ソリューションをサポートしており、複数の側面で最先端（SOTA）の性能を達成し、スケーラブルで高品質な 3D アセット作成への重要な一歩となっています。

image

論文アドレス：https://arxiv.org/pdf/2512.03052

18、ArtLLM：3D 大規模言語モデルによるヒンジ式アセットの生成

【内容紹介】ゲーム、ロボット、シミュレーション用のインタラクティブなデジタル環境を構築するには、関節式 3D オブジェクト（articulated 3D objects）が不可欠です。その機能性は、構成部品の幾何形状と運動学構造に由来します。しかし、既存の方法には根本的な限界があります：最適化ベースのリコンストラクション手法は、物体ごとに遅い関節フィッティングを必要とし、通常は単純な単関節物体にしか適用できません。一方、検索ベースの手法は固定ライブラリから部品を組み立てるため、幾何形状が重複しやすく、汎化性能が低くなります。これらの課題に対処するため、私たちは ArtLLM を提案します。これは、完全な 3D メッシュから直接高品質な関節式アセットを生成できる革新的なフレームワークです。その核心は、既存の関節式データセットと手動生成された物体を組み合わせて構築された大規模関節式データセット上でトレーニングされた 3D マルチモーダル大規模言語モデルです。

従来の研究とは異なり、ArtLLM は可変数の部品と関節を自己回帰的に予測でき、物体の点雲に基づいて運動学構造を一貫した方法で推論できます。この知覚された関節配置（articulation-aware layout）は条件として用いられ、3D 生成モデルが高忠実度の部品幾何形状を合成するよう誘導します。PartNet-Mobility データセットにおける実験では、ArtLLM は部品の配置精度と関節予測の両方で既存の最先端手法を大幅に上回り、現実世界の物体に対しても堅牢に汎化できることが示されました。最後に、私たちはデジタルツイン構築におけるその応用価値を示し、スケーラブルなロボット学習分野での潜在力を強調します。

論文アドレス：https://arxiv.org/abs/2603.01142

19、MatPedia：高忠実度マテリアル合成のための汎用的生成基盤

【内容紹介】物理ベースレンダリング（PBR）マテリアルは、写真レベルのリアリティを持つグラフィックスの礎ですが、その作成プロセスはいまだに時間と労力を要し、専門知識を必要とします。生成モデルがマテリアル合成技術の発展を牽引する一方で、既存の方法には自然画像の外観と PBR 属性を橋渡しする統一された表現がなく、タスク固有のプロセスが分断されており、大規模な RGB 画像データを活用できていません。

そこで、私たちは MatPedia を提案しました。これは革新的な「統合 RGB-PBR 表現」に基づいた基礎モデルです。この表現では、材質を相互依存する 2 つの潜在変数（latents）にコンパクトに符号化します。1 つは RGB の外観用であり、もう 1 つは補完的な物理属性を符号化する 4 枚の PBR テクスチャ用です。これらの情報を 5 フレームのシーケンスとして構築し、ビデオ拡散アーキテクチャを採用することで、MatPedia はそれらの間の相関関係を自然に捉えつつ、RGB 生成モデルからの視覚的先行知識を転移することができます。この統合表現は、テキストから材質を生成する（text-to-material）、画像から材質を生成する（image-to-material）、および本質分解（intrinsic decomposition）など、単一のアーキテクチャ内で多様な材質タスクを処理するための統一されたフレームワークを実現します。MatPedia は、PBR データセットと大規模な RGB 画像を組み合わせた混合コーパスである MatHybrid-410K で訓練され、ネイティブの 1024×1024 解像度での合成を実現し、品質と多様性の両面で既存手法を大幅に上回りました。

論文アドレス：https://arxiv.org/abs/2511.16957

20、WorldStereo:3D 幾何記憶によって制御可能な動画生成とシーン再建を橋渡す

【内容概要】動画拡散モデル（VDMs）の最新進展は顕著な成果を収めています。しかし、生成される動画の視覚的品質が注目すべきものであるにもかかわらず、カメラの制御可能性が限定的であること、および異なるカメラ軌跡下での生成内容の一貫性の欠如により、これらの出力から一貫した 3D シーンを再建することは依然として課題となっています。本論文では、私たちは WorldStereo を提案します。これは、2 つの専用幾何記憶モジュールを通じて、カメラ誘導型動画生成と 3D 再建を橋渡す革新的なフレームワークです。

具体的には、グローバル幾何記憶（global-geometric memory）は、点群への増分更新注入によって粗粒度的構造先行知識を実現しつつ、精密なカメラ制御を可能にします。また、空間ステレオ記憶（spatial-stereo memory）は 3D 対応関係を利用してモデルの注意機構の受容野を制約し、メモリー庫内の微粒度的詳細に焦点を当てられるようにします。これらのコンポーネントにより、WorldStereo は精密なカメラ制御下でマルチビュー一貫性のある動画を生成することができ、高品質な 3D 再建を支援します。さらに、柔軟な制御ブランチに基づく WorldStereo は、分布マッチング蒸留（distribution matching distilled）された VDM マスターネットワークを採用し、結合訓練を行わずに驚異的な効率を示しました。カメラ誘導型動画生成および 3D 再建ベンチマークにおける広範な実験は、我々の手法の有効性を証明しています。特筆すべきは、WorldStereo が強力な世界モデルとして機能し、多様なシーン生成タスク（透視画像から出発する場合も全景画像から出発する場合も）を処理でき、高忠実度の 3D 結果を生み出すことを示した点です。

21、Mesh-Pro:非同期優位性誘導順序選好最適化に基づくアーティストスタイル四角形メッシュ生成

【内容简介】強化学習（RL）はテキストおよび画像生成の分野において顕著な成功を収めていますが、3D 生成領域におけるその潜在能力はまだ十分に掘り下げられていません。既存の研究は通常、オフラインの直接選好最適化（Direct Preference Optimization: DPO）手法に依存しており、訓練効率の低さと汎化能力の限界という課題に直面しています。本論文では、強化学習を 3D メッシュ生成タスクにおける訓練効率と生成品質の向上を目指すものです。具体的には：（1）3D メッシュ生成後の学習（post-training）効率を高めるために初めて設計された非同期オンライン RL フレームワークを開発しました。このフレームワークは、同期 RL よりも 3.75 倍高速です。（2）優位性誘導型順序選好最適化（Advantage-Ranked Preference Optimization: ARPO）と呼ばれる新たな RL アルゴリズムを提案します。DPO やグループ相対戦略最適化（Group Relative Policy Optimization: GRPO）など、既存の 3D メッシュ生成向け RL アルゴリズムと比較して、ARPO は訓練効率と汎化能力の間でより優れたバランスを実現しています。（3）非同期 ARPO を基盤として Mesh-Pro という手法を提案します。この手法はさらに、メッシュ表現のために新たな対角線認識型混合三角・四辺形トークン化（Tokenization）技術と、幾何学的完全性を確保するためのレイベース報酬機構を導入しています。Mesh-Pro は芸術用メッシュおよび密なメッシュの生成において、いずれも最先端（SOTA）のパフォーマンスを達成しました。

論文アドレス：https://arxiv.org/abs/2603.00526

22、X-Part：高忠実度かつ構造的一貫性を持つ形状分解

【内容简介】部品レベルの 3D 形状生成は、メッシュ再トポロジ（mesh retopology）、UV マッピング（UV mapping）、3D プリンティングなどの下流アプリケーションにとって不可欠です。しかしながら、既存の部品ベース生成手法は十分な制御性を欠いており、意味のある分解を実現することが困難な場合が多いです。そこで私たちは X-Part を提案します。これは全体 3D オブジェクトを、高い幾何学的忠実度と明確な意味、そして構造的整合性を持つ部品に分解することを目的とした制御可能な生成モデルです。X-Part は、部品生成のプロンプト（prompts）としてバウンディングボックス（bounding box）を利用し、逐点セマンティック特徴を注入することで意味のある分解を実現します。さらに、対話型部品生成のための編集可能なパイプライン（pipeline）も設計しました。多数の実験結果により、X-Part は部品レベルの形状生成において最先端（SOTA）のパフォーマンスを達成することが示されました。この研究は、生産レベルで利用可能かつ編集可能、そして構造的に妥当な 3D アセットを作成するための新たなパラダイムを確立するものです。コードは研究目的のために公開されます。

image

論文アドレス：https://arxiv.org/pdf/2509.08643

Findings 部門への採択（3 編）

UniVerse3D: Emerging Properties of Unified Multimodal Models in 3D Understanding and Generation

Video Generation Models are Good Latent Reward Models

USV: Unified Sparsification for Accelerating Video Diffusion Models

以上は不十分な統計に基づくものであり、今後の会議開催期間中も混元チームからはさらに多くの技術共有が予定されています。ご期待ください。

原文を読む

WeChat での閲覧へジャンプ

原文を表示

2026-03-04 17:03 广东

image

该领域仍然是人工智能的研究热点，方向聚焦在多模态创新和可持续AI等领域。

2026年度人工智能和计算机视觉顶级学术会议 CVPR 将于6月在丹佛会议中心举行。公开数据显示，CVPR 2026 收到了 16092 篇有效提交论文，最终接收了 4090 篇，接受率为 25.42%（拒稿率74.58%），论文将以口头报告、海报等形式呈现。

今年的大会进一步加强审查政策，并新设立「Findings」Workshop，由区域主席推荐 1717 篇未被主会接受但有价值的论文。总体趋势上看，论文的提交量持续爆炸式增长，说明该领域仍然是目前人工智能的研究热点，研究方向聚焦在多模态创新和可持续AI等领域。

据不完全统计，腾讯混元超过24篇论文入选本届CVPR大会，领域覆盖：

图像编辑任务中的思维链，工具调用等

视频生成后训练强化学习、视频联合生成模型、流式视频生成、视频生成加速等

3D可控生成模型、纹理生成、3D强化学习、交互3D世界模型、统一3D多模态模型等

以下是全部论文的介绍：

1、SoliReward：缓解视频生成奖励模型中的奖励破解与标注噪声问题

【内容简介】SoliReward 提出了一个系统性的视频生成奖励模型训练框架，旨在缓解现有方法中存在的数据标注噪声、社区VLM-Based RM机制探索不足，以及模型在后训练阶段易受“奖励黑客”（reward hacking）攻击等核心问题。在数据层面，该框架采用低成本可拓展的单项二元标注（single-item binary annotations）结合跨提示词配对策略(cross-prompt pairing strategy)，构建大量高质量的偏好数据集。在架构层面，它引入了分层渐进查询注意力（HPQA）机制，通过显式聚合多个模型层的特征来提取更稳健的标量奖励信号。

此外，为了有效缓解奖励黑客现象，SoliReward 提出了一种改进的 BT-WT（Bradley-Terry with Win-Tie）损失函数，通过引入“胜利平局”正则化正样本的得分分布，这一设计大幅缓解了因奖励模型不完美而对误判样本进行异常打分所引发的负优化，从而为后训练阶段提供了更细腻、可靠的偏好指导。实验表明，该方法在主体畸形和物理规律一致性上，显著提升了奖励模型本身的指标以及视频生成模型后训练的实际效果。

论文地址：https://arxiv.org/abs/2512.22170

2、UniAVGen：基于非对称跨模态交互的统一音视频生成模型

【内容简介】为打破开源音视频生成唇形不同步、语义不一致的行业痛点，南京大学联合腾讯混元等团队推出UniAVGen——这是业界首款聚焦人像的统一音视频联合生成框架。基于双分支联合合成架构，创新不对称跨模态交互机制，搭配人脸感知调制模块精准锚定面部核心交互区域，再结合模态感知无分类器引导策略强化跨模态关联，让人像音视频实现时空精准同步、音色与情感高度契合。该框架，仅用 130 万训练样本，就取得了超越 3000 万级样本模型的性能表现，一站式打通人像音视频联合生成\续生、视频配音频、音频驱动视频生成核心任务，不仅对真实人像生成效果拉满，更能适配动漫等跨域视觉风格，实现高保真、强泛化的人像音视频协同创作。

论文地址：https://arxiv.org/abs/2511.03334

3、Harmony：通过跨任务协同实现音视频协调生成

【内容简介】针对开源模型在音视频联合生成中难以对齐的痛点，我们深入剖析了音视频联合扩散过程的底层机制，并提出了全新的音视频同步框架Harmony。为了解决音视频潜变量共同带噪演化带来的“音画同步漂移”，我们创新性提出了“跨任务协同”训练范式，利用“音生视”和“视生音”双向任务的强监督信号来稳定对齐过程。同时，我们在模型内部设计了全局-局部解耦交互模块，精细化处理时序与风格特征，并针对音视频同步增强，提出了SyncCFG（同步增强型引导）技术，在推理阶段显式地剥离并放大跨模态同步信号。大量实验证明，Harmony不仅在生成保真度上表现优异，更能够实现高水平的音视频同步生成。

论文地址：https://arxiv.org/abs/2511.21579

4、ActAvatar：面向说话虚拟形象的时序感知精准动作控制

【内容简介】 ActAvatar是一个面向数字人生成的精准动作控制框架。现有的语音驱动数字人方法普遍存在文本指令跟随能力弱、动作与语音内容缺乏时序对齐、以及依赖额外姿态序列等控制信号的问题。

ActAvatar通过三项核心技术创新解决了这些挑战：（1）阶段感知交叉注意力机制（PACA），将文本提示词分解为全局描述和带时间锚点的阶段描述，实现动作语义与时间窗口的精确对齐；（2）渐进式音视觉对齐策略，让Transformer浅层优先响应文本以建立动作结构、深层逐步增强音频影响以精修唇形，避免两种模态间的互相干扰；（3）两阶段训练范式，先在大规模数据上建立鲁棒的音频-视觉对应关系，再通过结构化标注注入时序动作控制能力，有效防止灾难性遗忘。ActAvatar仅用5B参数即可在720p分辨率下生成高质量数字人视频，在动作控制精度、唇形同步和视觉质量上超越现有方法，且推理效率相比同等质量的方法提升4倍以上。

论文地址：https://arxiv.org/abs/2512.19546

5、 StreamAvatar：面向实时交互式人体虚拟形象的流式扩散模型

【内容简介】实时流式交互式数字人视频生成是实现下一代沉浸式数字人体验（如视频陪聊、互动客服）的关键技术。然而，现有的数字人视频扩散模型往往因其非因果架构和过高的计算成本而无法实现实时流式生成，且大多忽略了对数字人“倾听”状态的关键建模。为此，我们提出一个两阶段的自回归蒸馏与对抗式精炼框架框架，并引入参考注意力池（Reference Sink）、基于参考锚定的位置重编码（Reference-Anchored Positional Re-encoding）和一致性感知判别器（Consistency-Aware Discriminator）等策略来提升长视频生成的一致性与稳定性，成功将高质量的多步非因果模型蒸馏为高效的少步块因果自回归模型。基于该框架，我们推出 StreamAvatar —— 一个单样本、实时流式、交互式的数字人视频模型，可低延迟地生成包含精准口型、自然倾听反馈与连贯肢体手势的高保真 720P 无限长视频。大量实验表明，StreamAvatar 在取得巨大加速的同时，在图像质量、交互质量等维度超越现有方法。

论文地址：https://arxiv.org/abs/2512.22065

6、Meta-CoT：提升图像编辑的粒度与泛化能力

【内容简介】论文聚焦图像编辑领域中思维链（CoT）范式，解决现有方法难以兼顾 “细粒度指令跟随” 与 “跨任务泛化能力” 的痛点。现有工作，一类方法为专属任务设计 CoT模版，虽能实现更细粒度的编辑控制，但泛化性较差；另一方面，通用 CoT 范式因推理粒度不足，无法精准完成用户指令中的细节需求。此外，图像编辑领域缺乏覆盖多场景的评估基准，导致不同方法的性能对比缺乏客观性。

本论文提出Meta-CoT（元思维链）编辑范式，通过两级分解机制兼顾 “粒度” 与 “泛化” 两个挑战。第一级为三元组认知分解，将复杂编辑指令拆解为 “任务类型 - 编辑目标 - 理解粒度” 三元组，设计 “任务总结 - 多步思考 - 目标遍历” 三步推理流程，强制模型逐层细化语义理解，彻底解决粒度不足问题。第二级为元任务操作分解，提炼出添加、删除、替换、调整、生成 5 个基础元任务，所有复杂编辑均通过元任务组合实现，让模型仅通过少量元任务训练，就能泛化至各类未见复杂场景。此外，论文创新设计CoT-Edit Alignment Reward奖励机制，采用视觉语言模型（VLM）量化推理步骤与编辑结果的匹配度，并结合 Flow-GRPO 算法优化模型对齐效果。作者还构建了包含 21 个典型任务的综合评估基准，覆盖物体编辑、风格迁移、属性调整等核心场景。

实验结果验证了方法的优越性：在自建 21-task 基准和 ImgEdit 公开数据集上，Meta-CoT 相较纯编辑基线实现 15.8% 的综合性能提升；仅训练 5 个元任务，即可达到全任务训练的效果，在指令遵循度、细节还原度等核心指标上全面超越 Bagel、EditAnything 等现有 SOTA 方法，为图像编辑的 CoT 范式设计提供了全新的理论框架与实践路径。

7、JarvisEvo：通过编辑器-评估器协同优化实现自进化照片编辑代理

【内容简介】论文聚焦智能体图像编辑领域两个痛点：一是纯文本思维链（CoT）推理存在信息瓶颈，易导致指令幻觉，无法通过视觉反馈验证编辑过程；二是强化学习中静态奖励模型与动态策略优化不匹配，引发Reward hacking问题。

论文提出 JarvisEvo，一个融合编辑与评估双重任务的自进化图像编辑智能体方案，主要贡献包括三点：第一，设计交错式多模态思维链（iMCoT）机制，通过 “文本假设 - 图像测试 - 反思调整” 的闭环，将视觉反馈融入推理过程，打破纯文本 CoT 的信息壁垒，提升指令遵循度与编辑准确性。其二，提出协同编辑 - 评估器策略优化（SEPO）框架，包含双优化循环：编辑器利用自我评估分数生成内在奖励；评估器通过人类离线标注数据持续优化，有效抑制奖励黑客与自我欺骗。其三，无缝集成 Adobe Lightroom（200 余种专业修图工具）与 Qwen-Image-Edit，同时支持保留式编辑与生成式编辑，兼顾精细修图与创意合成需求。训练方面，JarvisEvo 采用三阶段流程：基于 200K 标注数据的监督微调初始化模型能力；SEPO 强化学习阶段优化编辑与评估策略；5K 反思样本微调增强自我纠错能力。作者构建了涵盖 230K 样本的 ArtEdit 数据集及对应的 ArtEdit-Bench 基准，覆盖中英双语、30 种任务类型与 10 大场景。

实验结果显示，在 ArtEdit-Bench 的保留式编辑任务中，JarvisEvo 相较 Nano-Banana 平均提升 18.95%，像素级内容保真度提升达 44.96%；生成式编辑性能与主流商业模型持平。在评估能力上，其与人类评分的相关性（SRCC=0.7243、PLCC=0.7116）超越专业评估模型与通用多模态大模型。人类评测中，其精细编辑胜率达 49%，显著优于基线模型，验证了该方法在解决指令幻觉与奖励黑客问题上的有效性，为通用型图像编辑智能体提供了新范式。

论文地址：https://arxiv.org/abs/2511.23002

8、Re-对齐：面向上下文图像生成与编辑的结构化推理引导对齐

【内容简介】论文提出 Re-Align，一款基于结构化推理引导对齐的统一框架，核心目标是弥合模型理解与生成能力的鸿沟，同时支持上下文图像生成与编辑任务。其核心贡献包括三点：

一，设计上下文思维链（IC-CoT）结构化推理范式，通过语义引导与参考关联双组件 decouple 语义指令与参考图像的关联，语义引导生成明确的目标图像描述，参考关联则清晰界定每张参考图像的作用，避免多图像输入时的混淆，为生成过程提供精准指引。

二，提出有效的强化学习训练方案，引入替代奖励（基于 CLIP 计算 IC-CoT 中的描述与生成图像的相似度）衡量推理与生成的对齐度，同时设计推理诱导多样性策略，通过生成多样化推理轨迹提升样本差异性，稳定组相对策略优化（GRPO）的训练过程。

三，构建 Re-Align-410K 高质量数据集，通过 “参考图像准备 - 自适应指令生成 - 推理文本生成 - 目标图像合成 - 多维度过滤” 的自动化流程，覆盖主体驱动生成、属性迁移编辑等多种 ICGE 任务，保障模型训练的数据质量。

训练采用两阶段流程：第一阶段基于 Re-Align-410K 数据集进行监督微调，使模型掌握 IC-CoT 引导的图像生成能力；第二阶段通过 GRPO 优化推理 - 生成对齐，结合替代奖励与多样性策略提升模型性能。实验基于 OmniContext 和 DreamOmni2Bench 两大基准展开，对比 BAGEL、OmniGen2 等主流模型。实验结果显示，Re-Align 在两大基准上均取得最优综合性能，平均得分达 8.21，在多参考图像、场景级任务中优势显著，prompt 遵循度与主体一致性全面超越基线模型。消融实验验证了 IC-CoT 结构化推理的有效性，其相较于无推理或非结构化推理，胜率分别提升 20% 和 16.25%。该框架成功解决了 ICGE 任务中参考混淆、推理- 生成错位的核心问题，为复杂图像-文本交错提示的视觉生成与编辑提供了新范式。

论文地址：https://arxiv.org/abs/2601.05124

9、PromptEnhancer：通过细粒度奖励优化文本到图像生成的提示重写器

【内容简介】该论文聚焦文本到图像（T2I）生成领域的核心痛点：现有模型难以精准理解复杂用户提示，在属性绑定、否定表达、组合关系等细粒度语义层面易出现偏差，且现有提示重写方法缺乏通用性，依赖模型专属微调或粗粒度奖励信号，适配性与效果受限。论文提出 PromptEnhancer，一款通用且模型无关的提示重写框架，核心目标是在不修改任何预训练 T2I 模型权重的前提下，通过优化提示提升生成结果与用户意图的对齐度。

训练数据方面，论文通过 “用户提示模拟-CoT 与重写提示生成-自动过滤-人工筛选” 四步流程构建高质量监督数据集，并额外构建 5 万条独立提示用于强化学习阶段的策略对齐。实验基于混元图像模型展开，验证了框架的有效性与通用性。实验结果显示，PromptEnhancer 在 24 个评估维度上平均提升 T2I 模型生成准确率 5.1%，其中在相似关系（+17.3%）、反事实推理（+17.2%）、计数（+15.0%）等复杂语义任务上提升尤为显著，在代词解析、表情渲染等细粒度场景也实现 10% 以上的性能增益。该框架无需修改 T2I 模型架构，可作为即插即用模块适配主流模型，在中英文双语场景中均表现稳定，为解决 T2I 生成的提示对齐问题提供了通用且高效的新方案。

论文地址：https://arxiv.org/html/2509.04545v5

10、 TAG-MoE：面向统一生成式混合专家模型的任务感知门控

【内容简介】该论文聚焦统一图像生成与编辑模型的核心痛点：密集扩散 Transformer 架构中存在严重的任务干扰，局部编辑（需精准保留内容）与主体驱动生成（需丰富多样性）等任务目标相互冲突，导致模型陷入 “平庸妥协”；而现有混合专家（MoE）范式的门控网络仅依赖局部特征，缺乏全局任务意图感知，无法实现有效专家 specialization，难以解决任务干扰问题。当前领域中，MoE 架构虽能提升模型容量，但未针对统一生成 / 编辑任务的异质性设计，任务无关的路由机制限制了其性能发挥。

论文提出 TAG-MoE，一款基于任务感知门控的 MoE 框架，核心目标是将高层任务语义注入 MoE 路由决策，实现专家的任务特异性 specialization，从而缓解任务干扰。

训练数据方面，论文构建了包含 1100 万样本的大规模数据集，涵盖公开基准数据与自研专有数据，通过 LLM 生成多样化指令、专业模型合成目标图像、逆任务增强等方式保障数据质量与任务覆盖度。实验基于 ICE-Bench、EmuEdit-Bench 等五大基准展开，对比 ACE++、Flux-Kontext 等开源与闭源基线模型。

实验结果显示，TAG-MoE 在所有基准上均取得最优综合性能，在 ICE-Bench 的美学质量、指令对齐（CLIP-cap）、任务执行正确性（vllmqa）等核心指标上超越所有开源模型，其 CLIP-cap 分数甚至优于 GPT-4o 等闭源产品；在 EmuEdit-Bench 和 GEdit-Bench 上，vllmqa 指标分别达到 0.9284 和 0.8854，彰显强大的指令执行能力；在主体驱动生成任务中，人脸身份保留、风格保真度等指标也位居 SOTA。消融实验验证了 MoE 架构与预测对齐正则化的必要性，专家激活模式分析表明模型已形成任务与空间双重特异性的专家分工。该框架有效解决了统一生成 / 编辑任务中的干扰问题，为高效、高性能的多任务视觉合成提供了新方案。

论文地址：https://arxiv.org/abs/2601.08881

11、EffectMaker：实现定制化视觉特效创作的推理与生成统一

【内容简介】针对视觉特效制作门槛高、数据稀缺痛点，腾讯混元提出特效生成框架 EffectMaker和特效数据集 EffectData。EffectMaker创新融合多模态大模型（MLLM）与扩散 Transformer（DiT），构建了“语义+视觉”双路径引导机制，利用 MLLM 深度解析参考视频的复杂语义并智能推理针对目标图像的适配逻辑，结合 DiT 的上下文学习能力，实现了无需微调的端到端特效迁移，具备强大的零样本泛化能力，可逼真复现复杂影视特效。团队同时构建并计划开源全球规模最大的特效数据集 EffectData，包含2000特效类目，超 10 万特效视频，为相关领域的后续研究提供重要资源支撑。

12、DisCa：通过蒸馏兼容的可学习特征缓存加速视频扩散 Transformer

虽然扩散模型在视频生成领域取得了巨大成功，但随之而来的是计算负担的飞速增长。在现有的加速方法中，特征缓存（Feature Caching）因其无需训练的特性和显著的加速效果而备受青睐，但随着压缩程度的加深，它不可避免地会导致语义丢失和细节模糊。另一种被广泛采用的方法——训练感知型步长蒸馏（Step-distillation），虽在图像生成领域表现出色，但在视频生成中仅需极少数步长便会出现剧烈的性能退化。此外，由于采样步长更加稀疏，若简单地将无需训练的特征缓存应用于蒸馏后的模型，质量损失会愈发严重。

本论文首次创新性地引入了一种与蒸馏兼容的可学习特征缓存机制。我们采用轻量级的可学习神经预测器取代了扩散模型中传统的无训练启发式方法，从而能够更精确地捕捉高维特征的演化过程。此外，我们探索了大规模视频模型在高度压缩蒸馏下面临的挑战，并提出了一种保守的受限平均流（Restricted MeanFlow）方法，以实现更稳定且无损的蒸馏。通过这些努力，我们在保持生成质量的前提下，将加速极限进一步推至 11.8倍。大量实验充分证明了我们方法的有效性。

论文地址：https://arxiv.org/pdf/2602.05449

13、Flash-DMD：通过高效蒸馏和联合强化学习实现高保真少步骤图像生成

我们提出了Flash-DMD，一种结合时间步感知蒸馏和强化的创新的文生图模型蒸馏框架，通过结合高效时间步感知蒸馏蒸馏与联合强化学习实现蒸馏模型的快速收敛的同时提升生成的真实感——仅消耗DMD2 2.1%的训练资源即实现了超越教师模型的效果。

论文地址：https://arxiv.org/pdf/2511.20549

14、PoseMaster：面向风格化姿态生成的统一原生3D框

【内容简介】姿态风格化旨在生成具有目标姿态的风格化内容，是2D/3D及视频生成领域的基础任务。在3D领域，现有方法通常采用“级联”策略，即先利用2D先验模型修改图像姿态，再将其提升为3D资产。这种非3D原生的方式不仅导致严重的误差累积，还难以处理复杂的空间几何变换，从而限制了生成的精确性。为了克服这些挑战，我们提出了PoseMaster，这是一种将姿态风格化与3D生成统一的3D原生框架。与传统方法依赖2D骨架图不同，我们直接利用3D骨架（3D Skeletons）作为控制信号。3D骨架不仅能更准确地捕捉空间拓扑关系，还能消除2D投影带来的歧义。而为了支持这一范式，我们还构建了一个高效的数据引擎，生成了大规模“图像-3D骨架-3D网格”配对数据集，使模型能够同时学习外观ID与几何姿态的对应关系。广泛的实验表明，PoseMaster在定性和定量指标上均超越了SOTA方法。此外，该框架生成的3D网格与输入的3D骨架具备天然的拓扑一致性，配合蒙皮模型即可生成可动画资产；这意味着用户无需进行繁琐的手工重定向或骨架对齐，即可直接使用适配该骨架的现有动作序列驱动模型，极大地提升了其实用价值。

论文地址：https://arxiv.org/abs/2506.21076

15、改造3D生成模型实现自回归布局生成

【内容简介】我们提出了 LaviGen，这是一个将 3D 生成模型改造用于 3D 布局生成的框架。不同于以往从文本描述推断物体布局的方法，LaviGen 直接在原生 3D 空间中进行操作，将布局生成建模为一个自回归过程，显式地对物体间的几何关系和物理约束进行建模，从而生成协调且符合物理规律的 3D 场景。为了进一步优化这一过程，我们提出了一种适配的 3D 扩散模型，以整合场景、物体和指令信息，并采用双重引导自展开蒸馏机制（dual-guidance self-rollout distillation mechanism）来提高效率和空间准确性。在 LayoutVLM 基准上的大量实验表明，LaviGen 实现了卓越的 3D 布局生成性能，其物理合理性比现有最先进方法高出 19%，计算速度提升了 65%。我们将公开相关代码。

16、NaTex：基于潜在颜色扩散的无缝纹理生成

【内容简介】我们提出了 NaTex，这是一个原生纹理生成框架，能够直接在 3D 空间中预测纹理颜色。以往的方法通常依赖于将几何条件多视图扩散模型（MVDs）合成的 2D 多视图图像进行烘焙（baking），与之相比，NaTex 避免了 MVD 流程中存在的几个固有局限性。这些局限性包括：处理需要补全（inpainting）的遮挡区域时的困难、在边界处实现精确的网格-纹理对齐（mesh-texture alignment）的挑战，以及在内容和颜色强度上保持跨视图一致性和连贯性的难题。NaTex 提出了一种新的范式，通过将纹理视为稠密颜色点云来解决上述问题。受此思想启发，我们提出了潜在颜色扩散（latent color diffusion），它包含一个几何感知的颜色点云 VAE 和一个多重控制扩散 Transformer（DiT），完全使用 3D 数据从头训练，用于纹理的重建和生成。

为了实现精确对齐，我们引入了原生几何控制，通过位置嵌入和几何潜在变量（geometry latents），利用直接的 3D 空间信息对 DiT 进行条件引导。我们协同设计了 VAE-DiT 架构，其中几何潜在变量是通过一个与颜色 VAE 紧密耦合的专用几何分支提取的，从而提供与纹理保持强对应关系的细粒度表面引导。凭借这些设计，NaTex 展现了强大的性能，在纹理连贯性和对齐方面显著优于现有方法。此外，NaTex 还表现出强大的泛化能力，无论是无需训练（training-free）还是经过简单微调，都能应用于各种下游任务，例如材质生成、纹理优化以及部件分割与纹理化。

论文地址：https://arxiv.org/abs/2511.16317

17、LATTICE：大规模普及高保真3D生成

【内容简介】我们提出了 LATTICE，这是一个用于高保真 3D 资产生成的新框架，旨在弥合 3D 与 2D 生成模型在质量和可扩展性方面的差距。虽然 2D 图像合成受益于固定的空间网格和成熟的 Transformer 架构，但 3D 生成由于需要从头预测空间结构和精细的几何表面，在根本上更具挑战性。现有的 3D 表示计算复杂度高，且缺乏结构化、可扩展的 3D 资产编码方案，进一步加剧了这些挑战。为了解决这一问题，我们提出了 VoxSet，这是一种半结构化表示方法，它将 3D 资产压缩为一组锚定在粗糙体素网格上的紧凑潜在向量（latent vectors），从而实现高效且具备位置感知的生成。

VoxSet 既保留了先前 VecSet 方法的简单性和压缩优势，又在潜在空间中引入了显式结构，允许位置嵌入（positional embeddings）引导生成，并支持强大的 Token 级测试时扩展（test-time scaling）。基于此表示，LATTICE 采用两阶段流程：首先生成稀疏的体素化几何锚点，然后利用整流流 Transformer（Rectified Flow Transformer）生成精细的几何结构。我们的方法核心简洁，但支持任意分辨率解码、低成本训练和灵活的推理方案，在多个方面均达到了最先进（SOTA）的性能，为可扩展的高质量 3D 资产创建迈出了重要一步。

论文地址：https://arxiv.org/pdf/2512.03052

18、 ArtLLM：通过3D大语言模型生成铰链式资产

【内容简介】构建用于游戏、机器人和模拟的交互式数字环境，依赖于关节式 3D 物体（articulated 3D objects），其功能性源于其部件几何形状与运动学结构。然而，现有方法存在根本性的局限：基于优化的重建方法需要缓慢的、针对每个物体的关节拟合，且通常仅适用于简单的单关节物体；而基于检索的方法则从固定库中组装部件，导致几何形状重复且泛化能力较差。为解决这些挑战，我们提出了 ArtLLM，这是一个新颖的框架，能够直接从完整的 3D 网格生成高质量的关节式资产。其核心是一个 3D 多模态大语言模型，该模型在一个大规模关节数据集上进行了训练，该数据集由现有的关节数据集和程序化生成的物体共同构建而成。

与以往的工作不同，ArtLLM 能够自回归地预测可变数量的部件和关节，并基于物体的点云以统一的方式推断其运动学结构。这种感知关节的布局（articulation-aware layout）随后被用作条件，引导 3D 生成模型合成高保真的部件几何形状。在 PartNet-Mobility 数据集上的实验表明，ArtLLM 在部件布局准确性和关节预测方面均显著优于最先进的方法，同时能够鲁棒地泛化到现实世界的物体。最后，我们展示了其在构建数字孪生方面的应用价值，突显了其在可扩展机器人学习领域的潜力。

论文地址：https://arxiv.org/abs/2603.01142

19、MatPedia：面向高保真材质合成的通用生成基础

【内容简介】基于物理的渲染（PBR）材质是照片级真实感图形的基石，但其创建过程仍然耗时费力，且需要专业的知识。尽管生成模型推动了材质合成技术的发展，但现有方法缺乏一种能够桥接自然图像外观与 PBR 属性的统一表示，导致针对特定任务的流程相互割裂，且无法利用大规模 RGB 图像数据。

为此，我们提出了 MatPedia，这是一个建立在新颖的“联合 RGB-PBR 表示”之上的基础模型。该表示将材质紧凑地编码为两个相互依赖的隐变量（latents）：一个用于 RGB 外观，另一个用于编码互补物理属性的四张 PBR 贴图。通过将这些信息构建为一个 5 帧序列并采用视频扩散架构，MatPedia 能够自然地捕捉它们之间的相关性，同时从 RGB 生成模型中迁移视觉先验。这种联合表示实现了一个统一的框架，能够在单个架构内处理多种材质任务，包括文本生成材质（text-to-material）、图像生成材质（image-to-material）以及本征分解（intrinsic decomposition）。MatPedia 在 MatHybrid-410K（一个结合了 PBR 数据集与大规模 RGB 图像的混合语料库）上进行了训练，实现了原生的 1024×1024 分辨率合成，在质量和多样性方面均大幅超越了现有方法。

论文地址：https://arxiv.org/abs/2511.16957

20、 WorldStereo：通过3D几何记忆桥接可控视频生成与场景重建

【内容简介】视频扩散模型（VDMs）的最新进展取得了显著成果。然而，尽管生成视频的视觉质量令人瞩目，但由于相机可控性有限以及在不同相机轨迹下生成内容的不一致性，从这些输出中重建一致的3D场景仍然充满挑战。在本文中，我们提出了 WorldStereo，这是一个新颖的框架，它通过两个专用的几何记忆模块，将相机引导的视频生成与 3D 重建桥接起来。

具体而言，全局几何记忆（global-geometric memory）实现了精确的相机控制，同时通过增量更新的点云注入粗粒度的结构先验。此外，空间立体记忆（spatial-stereo memory）利用 3D 对应关系来约束模型的注意力感受野，使其能够专注于记忆库中的细粒度细节。这些组件使得 WorldStereo 能够在精确的相机控制下生成多视图一致的视频，从而助力高质量的 3D 重建。此外，基于灵活控制分支的 WorldStereo 展现出了令人瞩目的效率，这得益于其采用了经过分布匹配蒸馏（distribution matching distilled）的 VDM 主干网络，且无需进行联合训练。在相机引导视频生成和3D重建基准测试上的广泛实验证明了我们方法的有效性。值得注意的是，我们展示了 WorldStereo 作为一个强大的世界模型，能够处理多样化的场景生成任务（无论是从透视图像还是全景图像出发），并产生高保真的3D结果。

21、Mesh-Pro：基于异步优势引导排序偏好优化的艺术家风格四边形网格生成

【内容简介】强化学习（RL）在文本和图像生成领域已取得了显著成功，然而其在3D生成领域的潜力尚待充分挖掘。现有工作通常依赖于离线直接偏好优化（DPO）方法，面临训练效率低下和泛化能力有限的问题。本文旨在提升强化学习在3D网格生成任务中的训练效率与生成质量。具体而言：（1）我们设计了首个专为提升3D网格生成后训练（post-training）效率而定制的异步在线RL框架，其速度比同步RL快3.75倍。（2）我们提出了一种新颖的RL算法——优势引导的排序偏好优化（ARPO）。相较于DPO和群体相对策略优化（GRPO）等现有针对3D网格生成的RL算法，ARPO在训练效率和泛化能力之间实现了更优的平衡。（3）基于异步ARPO，我们提出了Mesh-Pro，该方法进一步引入了一种新颖的对角线感知混合三角-四边形词元化（Tokenization）技术用于网格表示，以及一种基于射线的奖励机制以确保几何完整性。Mesh-Pro在艺术网格和稠密网格生成上均取得了最先进（SOTA）的性能。

论文地址：https://arxiv.org/abs/2603.00526

22、X-Part：高保真与结构一致的形状分解

【内容简介】部件级 3D 形状生成对于网格重拓扑（mesh retopology）、UV 映射（UV mapping）和 3D 打印等下游应用至关重要。然而，现有的基于部件的生成方法往往缺乏足够的可控性，且难以实现具有良好语义意义的分解。为此，我们提出了 X-Part，这是一种可控的生成模型，旨在将整体 3D 对象分解为具有高几何保真度、语义明确且结构连贯的部件。X-Part 利用边界框（bounding box）作为部件生成的提示（prompts），并注入逐点语义特征以实现有意义的分解。此外，我们还设计了一个可编辑的管线（pipeline），用于交互式部件生成。大量的实验结果表明，X-Part 在部件级形状生成方面达到了最先进（SOTA）的性能。这项工作为创建生产级、可编辑且结构合理的 3D 资产建立了新的范式。代码将公开发布以供研究。

论文地址：https://arxiv.org/pdf/2509.08643

入选Findings（3篇）

UniVerse3D: Emerging Properties of Unified Multimodal Models in 3D Understanding and Generation

Video Generation Models are Good Latent Reward Models

USV: Unified Sparsification for Accelerating Video Diffusion Models

以上为不完全统计，后续会议召开期间，混元团队也将推出更多技术分享，敬请期待。

阅读原文

跳转微信打开

この記事をシェア

腾讯混元重要度42026年4月23日 18:50

Hy3プレビュー版を公開・オープンソース化：混元再構築後の初モデル、エージェント能力が大幅に向上

腾讯混元重要度42026年4月16日 11:31

テンセント混元3D世界モデル2.0をリリース：ゲームワークフローとシームレスに連携

腾讯混元重要度42026年4月9日 18:07

テンセントRobotics Xラボと混元が2Bエンボディードモデルを共同開発：22項目中16項目で最高評価

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

腾讯混元·2026年3月4日 18:03·約41分

CVPR 2026採択結果発表、テンセントの混元モデル関連論文25本以上が選出

#CVPR 2026 #動画生成 #マルチモーダルAI #3D生成 #腾讯混元

TL;DR

CVPR 2026において腾讯混元が24本以上の論文を採用し、動画生成の報酬モデルやマルチモーダル統合など多領域で技術的進捗を示した。

AI深層分析2026年4月26日 09:36

重要/ 5段階

深度40%

キーポイント

CVPR 2026の統計的特徴

1万6千件以上の応募に対し4090件が採択され、受容率は25.42%。多模態革新と持続可能AIが主要な研究トレンドとなっている。

腾讯混元の技術的貢献

画像編集、動画生成（後訓練・ストリーミング）、3D生成など多岐にわたる24本以上の論文が採用され、業界での存在感を示した。

動画生成の課題解決

SoliRewardやUniAVGenなどの論文により、動画生成における報酬ハッキング、ノイズ耐性、および音声と映像の同期精度が向上した。

リアルタイムインタラクティブ技術

StreamAvatar：实时流式交互式数字人生成

提出两阶段自回归蒸馏与对抗式精炼框架，将高质量非因果模型蒸馏为高效少步块因果自回归模型，实现低延迟、高保真的720P无限长视频生成。

Meta-CoT：兼顾粒度与泛化的图像编辑范式

通过三元组认知分解和元任务操作分解两级机制，仅训练5个基础元任务即可泛化至各类复杂场景，综合性能较基线提升15.8%。

JarvisEvo：自进化照片编辑智能体

设计交错式多模态思维链（iMCoT）与协同编辑-评估器策略优化（SEPO），有效解决指令幻觉和奖励黑客问题，精细编辑胜率显著优于基线。

影響分析・編集コメントを表示

影響分析

編集コメント

2026年3月4日 17時03分広東

image

不十分な統計によると、騰訊混元（Tencent Hunyuan）からは24編以上の論文が今回のCVPR大会に採択されました。対象分野は以下の通りです：

画像編集タスクにおける思考連鎖（Chain of Thought）、ツール呼び出しなど

動画生成後のトレーニングにおける強化学習、動画の共同生成モデル、ストリーミング動画生成、動画生成の高速化など

3D制御可能生成モデル、テクスチャ生成、3D強化学習、インタラクティブな3D世界モデル、統一型3Dマルチモーダルモデルなど

以下に全論文の紹介を記します：

SoliReward：動画生成における報酬モデルの報酬ハッキングと注釈ノイズ問題の緩和

論文アドレス：https://arxiv.org/abs/2512.22170

UniAVGen：非対称クロスモーダルインタラクションに基づく統一型音声・映像生成モデル

論文アドレス：https://arxiv.org/abs/2511.03334

3、Harmony：タスク間協調による音声・映像の協調生成の実現

image

論文アドレス：https://arxiv.org/abs/2511.21579

4、ActAvatar：話者向けバーチャルアバターの時系列知覚に基づく精密動作制御

論文アドレス：https://arxiv.org/abs/2512.19546

5、StreamAvatar：リアルタイム対話型人体バーチャルアバター向けのストリーミング拡散モデル

image

論文アドレス：https://arxiv.org/abs/2512.22065

6、Meta-CoT: 画像編集の粒度と汎化能力の向上

7、JarvisEvo：エディターと評価器の協調最適化による自己進化型写真編集エージェント

論文アドレス：https://arxiv.org/abs/2511.23002

8、Re-Align：文脈画像生成・編集のための構造化推論誘導アライメント

論文アドレス：https://arxiv.org/abs/2601.05124

9、PromptEnhancer：微細粒度報酬を用いたテキストから画像への生成を最適化するプロンプトリライタ

論文アドレス：https://arxiv.org/html/2509.04545v5

10、TAG-MoE：統一型生成混合専門家モデルのためのタスク知覚ゲート

論文アドレス：https://arxiv.org/abs/2601.08881

11、EffectMaker：カスタマイズされた視覚エフェクト制作のための推論と生成の統一化

12、DisCa：蒸留互換性の学習可能特徴キャッシュによる動画拡散 Transformer の高速化

論文アドレス：https://arxiv.org/pdf/2602.05449

13、Flash-DMD：高効率な蒸留と統合強化学習による高忠実度少ステップ画像生成

論文アドレス：https://arxiv.org/pdf/2511.20549

14、PoseMaster：スタイル化されたポーズ生成のための統一されたネイティブ3Dフレームワーク

image

論文アドレス：https://arxiv.org/abs/2506.21076

15、3D生成モデルの改変による自己回帰的レイアウト生成の実現

16、NaTex：潜在色拡散に基づくシームレスなテクスチャ生成

論文アドレス：https://arxiv.org/abs/2511.16317

17、LATTICE：大規模普及による高忠実度 3D 生成

image

論文アドレス：https://arxiv.org/pdf/2512.03052

18、ArtLLM：3D 大規模言語モデルによるヒンジ式アセットの生成

論文アドレス：https://arxiv.org/abs/2603.01142

19、MatPedia：高忠実度マテリアル合成のための汎用的生成基盤

論文アドレス：https://arxiv.org/abs/2511.16957

20、WorldStereo:3D 幾何記憶によって制御可能な動画生成とシーン再建を橋渡す

21、Mesh-Pro:非同期優位性誘導順序選好最適化に基づくアーティストスタイル四角形メッシュ生成

論文アドレス：https://arxiv.org/abs/2603.00526

22、X-Part：高忠実度かつ構造的一貫性を持つ形状分解

image

論文アドレス：https://arxiv.org/pdf/2509.08643

Findings 部門への採択（3 編）

UniVerse3D: Emerging Properties of Unified Multimodal Models in 3D Understanding and Generation

Video Generation Models are Good Latent Reward Models

USV: Unified Sparsification for Accelerating Video Diffusion Models

以上は不十分な統計に基づくものであり、今後の会議開催期間中も混元チームからはさらに多くの技術共有が予定されています。ご期待ください。

原文を読む

WeChat での閲覧へジャンプ

原文を表示

2026-03-04 17:03 广东

image

该领域仍然是人工智能的研究热点，方向聚焦在多模态创新和可持续AI等领域。

据不完全统计，腾讯混元超过24篇论文入选本届CVPR大会，领域覆盖：

图像编辑任务中的思维链，工具调用等

视频生成后训练强化学习、视频联合生成模型、流式视频生成、视频生成加速等

3D可控生成模型、纹理生成、3D强化学习、交互3D世界模型、统一3D多模态模型等

以下是全部论文的介绍：

1、SoliReward：缓解视频生成奖励模型中的奖励破解与标注噪声问题

论文地址：https://arxiv.org/abs/2512.22170

2、UniAVGen：基于非对称跨模态交互的统一音视频生成模型

论文地址：https://arxiv.org/abs/2511.03334

3、Harmony：通过跨任务协同实现音视频协调生成

论文地址：https://arxiv.org/abs/2511.21579

4、ActAvatar：面向说话虚拟形象的时序感知精准动作控制

论文地址：https://arxiv.org/abs/2512.19546

5、 StreamAvatar：面向实时交互式人体虚拟形象的流式扩散模型

论文地址：https://arxiv.org/abs/2512.22065

6、Meta-CoT：提升图像编辑的粒度与泛化能力

7、JarvisEvo：通过编辑器-评估器协同优化实现自进化照片编辑代理

论文地址：https://arxiv.org/abs/2511.23002

8、Re-对齐：面向上下文图像生成与编辑的结构化推理引导对齐

论文地址：https://arxiv.org/abs/2601.05124

9、PromptEnhancer：通过细粒度奖励优化文本到图像生成的提示重写器

论文地址：https://arxiv.org/html/2509.04545v5

10、 TAG-MoE：面向统一生成式混合专家模型的任务感知门控

论文地址：https://arxiv.org/abs/2601.08881

11、EffectMaker：实现定制化视觉特效创作的推理与生成统一

12、DisCa：通过蒸馏兼容的可学习特征缓存加速视频扩散 Transformer

论文地址：https://arxiv.org/pdf/2602.05449

13、Flash-DMD：通过高效蒸馏和联合强化学习实现高保真少步骤图像生成

论文地址：https://arxiv.org/pdf/2511.20549

14、PoseMaster：面向风格化姿态生成的统一原生3D框

论文地址：https://arxiv.org/abs/2506.21076

15、改造3D生成模型实现自回归布局生成

16、NaTex：基于潜在颜色扩散的无缝纹理生成

论文地址：https://arxiv.org/abs/2511.16317

17、LATTICE：大规模普及高保真3D生成

论文地址：https://arxiv.org/pdf/2512.03052

18、 ArtLLM：通过3D大语言模型生成铰链式资产

论文地址：https://arxiv.org/abs/2603.01142

19、MatPedia：面向高保真材质合成的通用生成基础

论文地址：https://arxiv.org/abs/2511.16957

20、 WorldStereo：通过3D几何记忆桥接可控视频生成与场景重建

21、Mesh-Pro：基于异步优势引导排序偏好优化的艺术家风格四边形网格生成

论文地址：https://arxiv.org/abs/2603.00526

22、X-Part：高保真与结构一致的形状分解

论文地址：https://arxiv.org/pdf/2509.08643

入选Findings（3篇）

UniVerse3D: Emerging Properties of Unified Multimodal Models in 3D Understanding and Generation

Video Generation Models are Good Latent Reward Models

USV: Unified Sparsification for Accelerating Video Diffusion Models

以上为不完全统计，后续会议召开期间，混元团队也将推出更多技术分享，敬请期待。

阅读原文

跳转微信打开

この記事をシェア

腾讯混元重要度42026年4月23日 18:50

Hy3プレビュー版を公開・オープンソース化：混元再構築後の初モデル、エージェント能力が大幅に向上

腾讯混元重要度42026年4月16日 11:31

テンセント混元3D世界モデル2.0をリリース：ゲームワークフローとシームレスに連携

腾讯混元重要度42026年4月9日 18:07

テンセントRobotics Xラボと混元が2Bエンボディードモデルを共同開発：22項目中16項目で最高評価

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

CVPR 2026採択結果発表、テンセントの混元モデル関連論文25本以上が選出

キーポイント

影響分析

編集コメント

関連記事

CVPR 2026採択結果発表、テンセントの混元モデル関連論文25本以上が選出

キーポイント

影響分析

編集コメント

関連記事