Seed3D 1.0がリリース、1枚の画像から高精度3Dモデルを生成、テクスチャ生成能力はSOTA
字节跳动 Seed チームが、単一画像から物理特性を備えた高精度な 3D モデルおよびシナリオを生成する「Seed3D 1.0」を発表し、具身智能の訓練環境構築に新たな道を開いた。
キーポイント
Diffusion Transformer による高品質 3D 生成
Diffusion Transformer アーキテクチャを採用し、単一画像から物理完全性(閉曲面・流形)を保証する高精度な幾何形状と PBR マテリアルを備えた 3D モデルをエンドツーエンドで生成可能にした。
具身智能向けシミュレーション環境への統合
生成されたモデルは Isaac Sim などのシミュレータへ直接インポート可能であり、ロボットの訓練用合成データや複雑な物理インタラクション環境の構築を効率化する。
業界最高水準の性能と SOTA 達成
既存のオープンソースおよびクローズドモデルと比較し、特にテクスチャ・マテリアル生成において SOTA(State-of-the-Art)を記録し、大規模パラメータモデルを上回る幾何精度を示した。
大規模データ処理パイプラインの構築
異種 3D データを統一フォーマットへ変換・去重・再構成する三段階処理と、分散データ処理フレームワークを確立し、高品質な学習データの供給基盤を整備した。
多视角纹理与 PBR 材质生成
Seed3D 1.0 基于多模态 Diffusion Transformer 架构,通过上下文控制策略确保多视角纹理一致性,并采用估计方法框架在有限数据下实现高泛化能力的真实 PBR 材质生成。
小参数大性能与细节还原
仅用 1.5B 参数的模型在几何结构完整性和精细特征(如文本、面部)还原上超越了业界 3B 参数的竞品,且在纹理保持性方面达到 SOTA 水平。
仿真级场景应用拓展
该模型支持从单图生成可直接集成至 Isaac Sim 的仿真级 3D 模型,为物理仿真和机器人操作测试提供高质量的内容支撑。
影響分析・編集コメントを表示
影響分析
本発表は、ロボット工学やメタバース分野における「世界模拟器」の実現に向けた決定的な一歩であり、従来の手作業による 3D アセット作成のボトルネックを打破します。特に物理法則に則った高精度モデルの自動生成が可能になることで、大規模な合成データを用いた強化学習(RL)やシミュレーション環境の構築が飛躍的に加速し、具身智能の実用化への道筋が大きく拓かれます。
編集コメント
物理的整合性を保ちながら高品質なテクスチャを生成できる点は、実世界でのロボット訓練シナリオにおいて極めて重要です。ただし、現時点では API 提供段階であり、大規模産業利用におけるコストやレイテンシの検証が今後の課題となります。
Seed3D 1.0 发布,一张图生成高精度 3D 模型,纹理生成能力 SOTA
原创 字节跳动 Seed 2025-10-23 11:58 北京
可拓展至场景生成,为世界模拟器提供支撑
世界模拟器对具身智能的发展至关重要,理想情况下可为机器人训练提供复杂的场景模拟和高质量的合成数据,还能支持实时交互的训练环境。
然而,当前技术依然面临瓶颈:基于视频生成的模拟器虽能产生逼真画面,但缺乏物理交互的能力;基于传统图形学的模拟器虽物理交互准确,但生成内容的多样性不够。
今天,字节跳动 Seed 团队推出 3D 生成大模型——Seed3D 1.0,实现从单张图像到高质量仿真级 3D 模型的端到端生成。Seed3D 1.0 基于创新的 Diffusion Transformer 架构,通过大规模数据训练完成,可生成包括精细几何、真实纹理和基于物理渲染(PBR)材质的完整 3D 模型。
Seed3D 1.0 生成的 3D 模型可集成至仿真环境供机器人训练
通过 Seed3D 1.0 生成的 3D 模型能够无缝导入 Isaac Sim 等仿真引擎,仅需少量适配工作即可支持具身智能大模型训练。此外,通过分步的场景生成,Seed3D 1.0 可从单个物体生成,拓展至构建完整的 3D 场景。
Seed3D 1.0 可根据图片生成包含古建筑群的 3D 场景
既存の 3D 生成モデルとの比較において、Seed3D 1.0 は優位性を示しています。そのテクスチャとマテリアルの生成性能は従来のオープンソースおよびクローズドソースモデルを上回り、幾何学的な生成性能は業界でより大規模なパラメータを持つモデルをも凌駕し、総合的な能力は業界のトップレベルに達しています。
現在、Seed3D 1.0 の技術報告書が公開され、API も稼働を開始しました。プロジェクトのホームページにてご確認いただけますので、ぜひ体験と交流をお楽しみください。
プロジェクトホームページ:
https://seed.bytedance.com/seed3d
体験エントリーポイント:
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D
- Seed3D 1.0:エンドツーエンドで高精度な 3D コンテンツを生成
物理的な正確性を考慮し、Seed3D 1.0 はグラフィックス(Computer Graphics)に基づく世界シミュレーターの探索を選択しました。そして、このアプローチにおける 3D モデルの多様性の不足、手作業による制作コストの高さ、および開発期間の長期化という課題の解決を試みています。
Seed3D 1.0 の開発過程において、チームは大規模な高品質な 3D データを収集・処理し、Diffusion Transformer(拡散トランスフォーマー)に基づく拡張性の高い 3D 生成基盤モデルの訓練に活用しました。同時に、Seed3D 1.0 はエンドツーエンドの技術アプローチを採用し、単一の画像からシミュレーションレベルの 3D モデルへの高速な生成を実現しています。
Seed3D 1.0 データ構築
3D データの複雑さと多様性は、訓練における最大の課題です。図に示す通り、Seed3D 1.0 は完全な三段階のデータ処理パイプラインを構築し、膨大な量の異種元の生 3D データを高品質なトレーニングセットへと変換しました。
処理プロセスには 3 つの重要なステップが含まれます。まず、生データの座標系とファイル形式を統一します。次に、データ重複の排除、姿勢の正規化、カテゴリラベリングなどの前処理を行います。最後に、幾何表面の再構築と多視点画像のレンダリングを行い、標準化された訓練データを生成します。
チームはまた、大規模データの保存、インデックス作成、可視化をサポートする効率的な分散型データ処理フレームワークを開発し、安定した訓練基盤を構築することで、大規模拡散モデル訓練の信頼性を確保しました。
Seed3D 1.0 モデルアーキテクチャ
Seed3D 1.0 は、生成 AI で広く採用されている Diffusion Transformer(拡散トランスフォーマー)アーキテクチャを採用し、3D 幾何学的形状の生成とテクスチャマッピングモデルを設計しました。
高精度な幾何学的生成
Seed3D 1.0 は 3D 幾何学的形状の高精度な構築を実現でき、精密な構造ディテールを生成できるだけでなく、閉曲面や流形幾何(Manifold Geometry)などの形態における物理的な完全性を保証し、シミュレーション計算の要件を満たします。図に示す通り、Seed3D 1.0 の幾何学的生成には 2 つのコアモジュールが含まれます。
(1) VAE エンコーダ:3D 幾何学的形状のコンパクトな表現を学習し、複雑なメッシュ構造を効率的に処理しながら表面ディテールを保持します。
(2) Diffusion Transformer モデル:潜在変数空間内で入力画像に基づき、高品質な 3D 幾何学的形状を生成します。
このアーキテクチャ設計は、生成効率の向上と幾何学的形状の正確性および物理的な完全性の確保の両方を実現しています。
多視点テクスチャ生成
精巧な幾何構造に加え、テクスチャマップは 3D 生成の視覚効果と多様性を保証する上で不可欠です。図に示す通り、Seed3D 1.0 はマルチモーダル Diffusion Transformer アーキテクチャに基づき、多視点画像生成モデルを構築しました。このモデルは参照画像と 3D 幾何レンダリング図を入力とし、一貫性のある多視点のテクスチャ画像を出力します。
その核心的な革新は、コンテキスト内におけるマルチモーダル制御戦略と最適化された位置符号化メカニズムにあり、異なる視点間の一貫性を確保します。多視点生成におけるシーケンス長の増大という課題に対処するため、チームは生成品質を担保するためにオフセット時間ステップサンプリング技術を採用しました。
PBR マテリアル生成
高品質なマテリアルは、写実的な 3D レンダリングを実現する鍵です。PBR(Physically Based Rendering:物理ベースレンダリング)マテリアルは、反射率、金属度、粗さの 3 つのコンポーネントで構成され、物体の視覚的リアリティを決定します。現在の PBR 合成手法は主に 2 つのカテゴリーに大別されます。生成式アプローチでは参照画像と 3D 幾何情報を用いて PBR マップを合成し、一方、直接推定アプローチでは多視点画像から各マテリアルコンポーネントの分解学習を行います。高品質な PBR 訓練データの不足という制約により、生成式手法の結果は推定式手法に比べてリアルで自然さに欠ける傾向があります。
この考察に基づき、Seed3D 1.0 は推定アプローチのフレームワークを採用しました。既存手法と比較して、チームは Diffusion Transformer モデルネットワークに基づく PBR 生成モデルを提案し、効率的な生成を保ちつつマテリアル推定の精度を向上させました。データ量が限定的な状況においても、より優れた汎化能力を発揮します。
図に示す通り、Seed3D 1.0 は多視点画像から直接マテリアル分解を学習します。これにより各マテリアルコンポーネントの正確な分解が可能となるだけでなく、生成された PBR マテリアルはあらゆる照明条件下で真実味のある視覚効果を示します。
- 評価結果:Seed3D 1.0 は保持力が突出しており、精巧な特徴を正確に再現可能
Seed3D 1.0 の生成品質を検証するため、チームは包括的な比較評価を実施しました。これは幾何生成とマテリアル・テクスチャ生成という 2 つの主要タスクを網羅し、定量的ベンチマークテスト、定性的分析、および人的評価を通じてモデルのパフォーマンスを多角的に評価したものです。
幾何生成:パラメータは少なく、効果はより優れている
上記の図に示す通り、Seed3D 1.0 は細部の保持と構造の完全性の面で他の手法を上回っており、15 億パラメータ(1.5B parameters)の Seed3D 1.0 は、業界で 30 億パラメータ(3B parameters)を持つモデル(Hunyuan3D-2.1)よりも性能が高く、複雑な物体の微細な特徴をより正確に再現することができます。
テクスチャ・マテリアル生成:画像保持性が先駆的
定性的な比較は、Seed3D 1.0 のテクスチャ生成における優位性を直感的に示しています。同モデルは参照画像の保持性において優れたパフォーマンスを発揮し、特に微細なテキスト生成においては顕著な強みを持っています。例えば蒸気パンク調の時計を例にとると、他のモデルが生成する詳細がぼやけてしまう場合でも、Seed3D 1.0 は時計盤の数字と機械部品の輪郭を鮮明に保ちます。人物生成においては、Seed3D 1.0 が顔の特徴や織物のテクスチャを正確に再現できる一方、ベースラインモデルは保持能力が全体的に不足しています。さらに、Seed3D 1.0 が生成する PBR(Physically Based Rendering:物理ベースレンダリング)マテリアルの表面はよりリアリティがあり、適切な金属反射や肌のサブサーフェス・スキャタリング(次表面散乱)を実現し、強い照明下でも自然な効果を示します。
人間による評価:幾何形状およびマテリアル・テクスチャの表現が突出
生成結果を包括的に評価するため、チームは 14 名の人間評価者を招き、43 枚の入力画像に基づいて各モデルの生成品質を多角的に評価しました。評価指標には、視覚的な鮮明さ、再現度、幾何形状の質、透視図と構造、マテリアルとテクスチャ、詳細の豊かさが含まれています。その結果、Seed3D 1.0 は 6 つのすべての次元で良好なスコアを獲得しました。
幾何形状生成においては、Seed3D 1.0 が幾何形状の質や透視構造の面で他のベースライン手法を上回っており、同時に Seed3D 1.0 のマテリアル・テクスチャの表現は際立っています。入力画像の保持、視覚的な鮮明さ、詳細の豊かさにおいて大幅に先行し、SOTA(State of the Art:最先端)レベルを達成しています。
- 単一物体からシーン生成へ、世界シミュレータへのコンテンツ基盤を提供
Seed3D 1.0 の高品質な生成能力に基づき、チームはこれを 2 つの重要なアプリケーション・シーンに拡張しました。
シミュレーション級 3D モデル生成
以下の図に示す通り、単一の画像を入力するだけで、Seed3D 1.0 は Isaac Sim に直接統合可能な 3D モデルを生成し、物理シミュレーションやロボット操作テストに利用できます。
3D モデルをシミュレータにインポートするために、Seed3D 1.0 は視覚言語モデル(VLM)を利用して各モデルのスケールを見積もり調整し、現実世界の物理寸法に合わせています。Isaac Sim は水密な流形幾何体から自動的に衝突メッシュを生成し、摩擦係数などのデフォルトの物理特性を適用するため、手動での微調整なしに即時の物理シミュレーションを実現できます。
チームは Isaac Sim 内で把持や多物体相互作用といったロボット操作実験を行いました。物理エンジンは接触力、物体ダイナミクス、および操作結果をリアルタイムで返します。Seed3D 1.0 が生成したモデルには、ロボットによる把持計画に不可欠な精密な幾何学的詳細が保持されており、おもちゃや電子機器は正確な表面特徴を保ち続けています。
このようなシミュレーション環境は、具身知能の開発において以下の三大の利点を提供します:
多様な操作シーンを通じて訓練データを大規模に生成可能であること;
ロボットの動作による物理的影響をリアルタイムでフィードバックし、対話型学習を実現すること;
多視点・多モーダルな観測データを提供し、視覚 - 言語 - 行動モデルのための包括的な評価基準を構築すること。
完全な 3D シーン生成
段階的生成戦略を採用することで、Seed3D 1.0 は単一の物体の生成から、完全で一貫性のある 3D シーンの生成へと拡張できます。
図に示す通り、システムはまず視覚言語モデルを用いて入力画像からオブジェクトと空間関係の情報を抽出し、シーンレイアウト図を構築します。次に、各オブジェクトに対応する 3D モデルを個別に生成します。最後に、空間レイアウトに基づいて個々の物体を組み合わせて完全なシーンを構成します。このフレームワークにより、Seed3D 1.0 はオフィススペースから都市の街並みまで、多様な 3D 環境を生成することが可能となり、世界シミュレータに対するシーンコンテンツの基盤を提供しています。
- まとめと展望
Seed3D 1.0 は三次元モデルおよびシーン生成において良好な性能を示しましたが、チームは 3D 生成大規模モデルに基づいて世界モデルを構築するには、生成精度や汎化性のさらなる向上など、依然として課題が残っていることを認識しています。大規模かつ自動化された高品質な 3D シーン生成は、まだ探求の初期段階にあります。
今後、チームは多モーダル大言語モデル(MLLM)を導入して 3D 生成の質と堅牢性を向上させるとともに、3D 生成モデルの世界シミュレータにおける大規模応用を推進していく予定です。
Seed3D 1.0 のリリースにより、一枚の画像から高精度な 3D モデルを生成できるようになりました。このモデルは、テクスチャ生成能力において SOTA(State of the Art:最先端)を達成しています。
原文を読む
WeChat で開くにはこちらへ
原文を表示
原创 字节跳动Seed 2025-10-23 11:58 北京
可拓展至场景生成,为世界模拟器提供支撑
世界模拟器对具身智能的发展至关重要,理想情况下可为机器人训练提供复杂的场景模拟和高质量的合成数据,还能支持实时交互的训练环境。
然而,当前技术依然面临瓶颈:基于视频生成的模拟器虽能产生逼真画面,但缺乏物理交互的能力;基于传统图形学的模拟器虽物理交互准确,但生成内容的多样性不够。
今天,字节跳动 Seed 团队推出 3D 生成大模型——Seed3D 1.0,实现从单张图像到高质量仿真级 3D 模型的端到端生成。Seed3D 1.0 基于创新的 Diffusion Transformer 架构,通过大规模数据训练完成,可生成包括精细几何、真实纹理和基于物理渲染(PBR)材质的完整 3D 模型。
Seed3D 1.0 生成的 3D 模型可集成至仿真环境供机器人训练
通过 Seed3D 1.0 生成的 3D 模型能够无缝导入 Isaac Sim 等仿真引擎,仅需少量适配工作即可支持具身智能大模型训练。此外,通过分步的场景生成,Seed3D 1.0 可从单个物体生成,拓展至构建完整的 3D 场景。
Seed3D 1.0 可根据图片生成包含古建筑群的 3D 场景
在与现有 3D 生成模型的对比中,Seed3D 1.0 展现出优势:其纹理与材质生成性能超过此前的开源及闭源模型,几何生成性能超过业界更大参数规模的模型,综合能力达到行业领先水平。
目前 Seed3D 1.0 技术报告已公开,API 也已上线,可访问项目主页查看,欢迎体验和交流。
项目主页:
https://seed.bytedance.com/seed3d
体验入口:
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D
- Seed3D 1.0:端到端生成高精度 3D 内容
出于物理准确性的考虑,Seed3D 1.0 选择探索基于图形学路线的世界模拟器,并试图解决该路线下 3D 模型多样性不足、人工制作成本高、周期长的挑战。
在 Seed3D 1.0 研发过程中,团队收集并处理了大规模的高质量 3D 数据,用来训练基于 Diffusion Transformer、易于拓展规模的 3D 生成基础模型。同时,Seed3D 1.0 采用了端到端的技术路线,实现从单张图像到仿真级 3D 模型的快速生成。
Seed3D 1.0 数据构建
3D 数据的复杂性和多样性是训练中的首要挑战。如下图所示,Seed3D 1.0 构建了完整的三阶段数据处理管线,将海量异构的原始 3D 数据转化为高质量训练集。
处理流程包括三个关键步骤:首先统一原始数据的坐标系和文件格式;然后进行数据去重、姿态转正和类别标注等预处理;最后完成几何表面重构和多视角图片渲染,并生成标准化的训练数据。
团队还开发了高效的分布式数据处理框架,支持大规模数据的存储、索引和可视化,且构建了稳定的训练基础设施,确保大规模扩散模型训练的可靠性。
Seed3D 1.0 模型架构
Seed3D 1.0 采用生成式 AI 广泛应用的模型架构 Diffusion Transformer,来设计 3D 几何生成和纹理贴图模型。
高精度几何生成
Seed3D 1.0 可以实现对 3D 几何的高精度构建,既能生成精确的结构细节,又能保证封闭曲面、流形几何等形态的物理完整性,以满足仿真计算要求。如下图所示,Seed3D 1.0 在几何生成方面包括两个核心模块:
(1)VAE 编码器:学习 3D 几何的紧凑表征,能高效处理复杂网格结构并保留表面细节。
(2)Diffusion Transformer 模型:在隐变量空间中基于输入图像生成高质量 3D 几何。
这种架构设计既提升了生成效率,又确保了几何的精确性和物理完整性。
多视角纹理生成
除了精细的几何结构,纹理贴图也是保证 3D 生成视觉效果和多样性的关键。如下图所示,Seed3D 1.0 基于多模态 Diffusion Transformer 架构,构建了多视角图片生成模型。模型输入参考图片和 3D 几何渲染图,输出多视角一致的纹理图像。
其核心创新在于上下文内多模态控制策略和优化的位置编码机制,可确保不同视角间的一致性。针对多视图生成中序列长度增长的挑战,团队采用了偏移时间步采样技术来保证生成质量。
PBR 材质生成
高质量材质是实现逼真 3D 渲染的关键。PBR 材质由反射率、金属度和粗糙度三个分量构成,决定了物体的视觉真实性。当前的 PBR 合成方法主要分为两大类:生成式方法通过参考图像和 3D 几何信息合成 PBR 贴图,而直接估计方法从多视图图像中学习分解各项材质分量。受限于高质量 PBR 训练数据的稀缺性,生成式方法的效果往往不如估计式方法真实自然。
基于此考量,Seed3D 1.0 采用估计方法框架。相较于现有方法,团队提出了一种基于 Diffusion Transformer 模型网络的 PBR 生成模型,保证高效生成的同时提升了材质估计的准确性,在数据量有限的情况下具备更强的泛化能力。
如图所示,Seed3D 1.0 直接从多视角图像中学习材质分解,不仅能准确分解出各材质分量,且生成的 PBR 材质在不同光照条件下都能呈现真实的视觉效果。
- 测评结果:Seed3D 1.0 保持力突出,可准确还原精细特征
为了验证 Seed3D 1.0 的生成质量,团队进行了全面的对比评估,涵盖几何生成和材质纹理生成两大核心任务,通过定量基准测试、定性分析和人工测评多维度评估模型的性能表现。
几何生成:参数更少,效果更优
如上图所示,Seed3D 1.0 在细节保持和结构完整性方面优于其他方法,1.5B 参数的 Seed3D 1.0 在性能上超过了业界 3B 参数的模型(Hunyuan3D-2.1),能够更准确地还原复杂物体的精细特征。
纹理材质生成:图像保持性领先
定性对比直观展现了 Seed3D 1.0 在纹理生成上的优势:它在参考图像保持性方面表现优秀,特别是在精细文本生成上优势明显,以蒸汽朋克时钟为例,当其他模型生成的细节较为模糊时,Seed3D 1.0 依然能保持钟面数字的清晰和机械部件的锐利;在人物生成方面,Seed3D 1.0 能精确还原面部特征和织物纹理,而基线模型普遍保持能力不足;同时,Seed3D 1.0 生成的 PBR 材质表面真实感更强,可实现恰当的金属反射和皮肤次表面散射,在强光照下效果自然。
人工评测:几何及材质纹理表现突出
为全面评估生成效果,团队还邀请了 14 名人类评估员,基于 43 张输入图像对不同模型的生成质量进行多维度评估,打分指标包括视觉清晰度、还原度、几何质量、透视与结构、材质与纹理、细节丰富度。结果显示,Seed3D 1.0 在六个维度均获得较好的评分。
在几何生成方面,Seed3D 1.0 在几何质量与透视结构上的表现优于其他基线方法,同时,Seed3D 1.0 的材质纹理表现突出,在输入图片保持、视觉清晰度及细节丰富度上均大幅领先,达到 SOTA 水平。
- 从单一物体到场景生成,为世界模拟器提供内容支撑
基于 Seed3D 1.0 的高质量生成能力,团队将其拓展到两个关键应用场景:
仿真级 3D 模型生成
如下图所示,输入单张图像,Seed3D 1.0 即可生成能直接集成到 Isaac Sim 中的 3D 模型,用于物理仿真和机器人操作测试。
为了将 3D 模型导入仿真器,Seed3D 1.0 利用视觉语言模型(VLM)估算并调整每个模型的尺度,使其符合真实世界的物理尺寸。Isaac Sim 能够从水密的流形几何体中自动生成碰撞网格,并应用默认的物理属性(如摩擦系数),从而无需手动调优,即可实现即时物理仿真。
团队在 Isaac Sim 中开展了抓取、多物体交互等机器人操作实验,物理引擎可实时返回接触力、物体动力学及操作结果。Seed3D 1.0 生成的模型保留了对真实接触仿真至关重要的精细几何细节,如玩具和电子设备保持了准确的表面特征,供机器人进行抓取规划。
这样的仿真环境为具身智能的开发提供了三大优势:
通过多样化的操作场景可大规模生成训练数据;
实时反馈机器人动作带来的物理影响,实现交互式学习;
提供多视角、多模态的观测数据,为视觉-语言-行动模型构建全面的评估基准。
完整 3D 场景生成
采用分步生成策略,Seed3D 1.0 还可从生成单一物体拓展至生成完整、连贯的 3D 场景。
如下图所示,系统首先利用视觉语言模型从输入图像中提取对象和空间关系的信息,构建场景布局图;然后为每个对象生成相应的 3D 模型;最后根据空间布局将各个物体组装成完整场景。这一框架使 Seed3D 1.0 能够生成丰富的 3D 环境,从办公室空间到城市街景,为世界模拟器提供了场景内容支撑。
- 总结与展望
尽管 Seed3D 1.0 在三维模型和场景生成中展现了良好性能,团队也意识到,要基于 3D 生成大模型搭建世界模型仍面临生成精度、泛化性需进一步提升等挑战。大规模、自动化的高质量 3D 场景生成,依然处于探索的初期阶段。
未来,团队将尝试引入多模态大语言模型(MLLM)来提升 3D 生成的质量和鲁棒性,并推动 3D 生成模型在世界模拟器中的大规模应用。
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み