Seed Research|Depth Anything 3:単一Transformerアーキテクチャによる任意視点の空間再構築を実現
字节跳动 Seed チームが公開した Depth Anything 3 は、単一の Transformer アーキテクチャで任意視点の空間再構築を実現し、既存モデルを大幅に上回る精度と効率性を達成した画期的な技術である。
キーポイント
単一 Transformer アーキテクチャの実現
従来の複雑な専用モジュールや多タスク学習に依存せず、一つの Transformer で深度推定と任意視点の空間再構築を統合的に処理する軽量設計を採用している。
「深度 - 射线」による統一表現
異なる出力形式を統一的な「深度 - 射线(depth-ray)」表現で扱うことで、タスク間の情報共有を可能にし、学習効率と推論精度の両方を最適化している。
SOTA を更新する性能向上
カメラ姿勢推定で VGGT より 35.7%、幾何再構築精度で 23.6% の大幅な改善を達成し、単目深度推定においても前作の SOTA をさらに上回る性能を発揮している。
実用性と汎用性の両立
アーキテクチャの簡素化により計算リソースが削減され、モバイルや組み込み環境への展開も視野に入れた、実世界での空間知能応用を加速させる設計となっている。
深度 - 射线统一表征解耦几何与运动
提出以“深度”和“射线”作为统一表征,将空间几何信息与相机运动自然解耦,避免了传统点云方法中两者耦合导致的优化难度增加。
单次前馈实现高精度重建无需迭代
模型通过一次前向传播即可生成高精度输出,显著提升了推理速度并简化了训练部署流程,在跑酷、大规模 SLAM 及自动驾驶等复杂场景中表现优异。
迈向融合语义与空间的类人视觉智能
DA3 突破了单目深度估计瓶颈,旨在让 AI 具备人类大脑双通路协作般的空间感知能力,最终实现语义识别与空间几何感知的完整统一。
影響分析・編集コメントを表示
影響分析
この発表は、従来の Vision 空間再構築モデルが抱えていたアーキテクチャの複雑さと計算コストという課題を、Transformer の本質的な能力に立ち返ることで解決した点で極めて重要です。業界全体において、より軽量かつ高精度な 3D 知能の実装が可能になることで、自律走行や拡張現実(XR)などの応用分野における技術的ボトルネックが解消され、実社会への展開スピードが加速すると予想されます。
編集コメント
「複雑さこそが性能の源泉」という従来の常識を覆し、シンプルさが高性能をもたらすという逆説的なアプローチが成功した事例として注目すべきです。オープンソース化により即座に実装検証が可能となるため、今後の Vision AI の標準アーキテクチャの一つになる可能性が高いでしょう。
Seed Research 2025-11-27 11:30 北京
単目深度推定と多視点再構築の技術的ボトルネックを突破
人間は一枚の写真や動画を見るだけで、瞬時に頭の中に空間の立体像を構築することができます。この能力は、異なる視点における空間幾何学的関係に対する理解と推論に由来するものであり、機械が物理世界を理解し参加するためには、空間知能を向上させ、シーンに対して精密な再構築を行う必要があります。
現在の視覚的空間再構築モデルの多くは、複雑なアーキテクチャと多タスク学習手法に依存しており、異なるネットワークモジュールを用いて深度推定、カメラ姿勢推定、多視点幾何学的再構築などのタスクをそれぞれ処理しています。しかし、これらの方法はしばしばアーキテクチャが過度に大規模であったり、タスク間の結合性が強すぎたりする問題に直面し、モデルが多様なタスクシナリオに対して柔軟に対応することを困難にしています。
このほど、ByteDance Seed チームは視覚的空間再構築モデル「Depth Anything 3(DA3)」を発表しました。
Depth Anything シリーズの最新オープンソース続編である DA3 は、単目深度推定の能力を任意の視点へと突破的に拡張するものであり、従来の多視点幾何学的再構築手法とは異なり、複雑な専用アーキテクチャに依存することなく、簡潔で効率的な Transformer モデル一つによって、異なる視点下での空間知覚を精密に実現します。
DA3 の二つの主要な特徴は以下の通りです:
(1)アーキテクチャの簡素化:Transformer を一個だけ使用すればよく、追加のカスタムアーキテクチャは不要であり、モデルは強力な視覚的事前学習能力を備えています。アーキテクチャが軽量であるため、訓練と展開がより効率的です。
(2)表現の統一:単一の「深度 - レイ」表現法を採用しており、追加の多タスク学習手法を導入する必要はありません。統一された表現により、モデルは核心的な空間幾何学的関係の学習に集中でき、複数のタスクにおいてより安定したパフォーマンスを発揮し、精度と効率の両面で最適化を実現します。
DA3 は異なるシーンにおける 3D 再構築タスクを迅速に完了できます
「簡潔な設計と精密な焦点」というアプローチを採用することで、DA3 は業界の視覚空間再構築における SOTA(State-of-the-Art:最良性能)レベルを刷新しました。カメラ姿勢精度のタスクでは、従来の主流モデルである VGGT に対して 35.7% の向上を達成し、幾何学的再構築精度においても VGGT を 23.6% 上回りました。また、単目深度推定タスクにおいては、DA2 がすでに SOTA 性能を達成していましたが、DA3 はさらにその性能を向上させました。
Depth Anything 3 の技術報告書とモデルコードが公開されました:
技術報告書:
https://arxiv.org/abs/2511.10647
コードリンク:
https://github.com/ByteDance-Seed/depth-anything-3
GitHub ホームページ:
https://depth-anything-3.github.io
HF Demo(Hugging Face デモ):
https://huggingface.co/spaces/depth-anything/depth-anything-3
- 余計なものを削ぎ落とし、空間再構築の根本メカニズムを抽出する
空間知能の分野において、3D 知覚再構築技術は、2 次元視覚情報と 3 次元物理世界をつなぐ重要な架け橋であり、自動運転、ロボット、仮想現実(VR)、建築測量など幅広い領域で活用されています。しかしながら、現在の主流モデルは、アーキテクチャの冗長性と出力表現の結合による非効率性という 2 つの大きな課題に直面しており、これが 3D 知覚再構築技術のさらなる発展を阻害しています。
DA3 は空間幾何学的モデリングの本質に戻り、「最小限のモデリング方式」を核心的な設計原則として据え、モデルが備えるべき重要な基礎能力を再定義しました。
DA3 は単一の Transformer を使用し、入力に適応したクロスビュー自己アテンション(Cross-view Self-Attention)メカニズムを導入することで、双 DPT(Dense Prediction Transformer:密推定トランスフォーマー)ヘッドを通じて、視覚特徴から深度マップとレイ図を予測します。
単一アーキテクチャで幾何学的本質に焦点を当てる
従来の手法では、視覚空間再構築モデルが異なるタスクに対応する際、それぞれネットワークモジュールやインターフェースを個別に構築する必要があり、その結果アーキテクチャが複雑化し、計算資源に対する要求が極めて高くなっていました。DA3 チームは、幾何学的空間再構築の本質はいずれもクロスビュー特徴の関連付けとグローバル空間モデリングに依存しており、これらは同一のモデリングメカニズムの中で統一的に処理可能であると判断しました。各タスクのために追加で専用モジュールを設計する必要はないのです。
タスクの抽象化に基づき、チームはモデル能力の根本的なメカニズムへと立ち返って導出を行いました。Transformer の自己アテンション(Self-Attention)メカニズムは本質的に長距離依存関係の捕捉をサポートしており、任意の数の入力ビューを柔軟に処理し、クロスビュー情報を動的に交換することができます。追加で特徴融合モジュールを設計する必要もなく、空間幾何学的モデリングの中核的なニーズに即座に対応可能です。
実験結果もさらに示唆していますが、複雑なカスタマイズアーキテクチャは特定のタスクにおいてわずかな性能向上をもたらす可能性がありますが、全体としての収益は限定的であり、訓練と展開のコストが大幅に増加し、モバイル端末や組み込み(Embedded)環境での応用を制限することになります。
上記の導出に基づき、DA3 は単一の Transformer を基本構造として採用し、簡潔なモデル設計を実現するとともに、さまざまな 3D タスクにおいて安定した効率的な推論性能を発揮します。
視覚的空間再構築のための最小限かつ完全な出力の実現
3D 再構築タスクでは、出力形式が特定のタスクに強く紐付けられており、異なる形式間には統一された論理的関連性が欠如しているため、情報の再利用や共有が困難となっています。また、冗長な出力は学習負荷を増大させ、中核となる幾何情報への学習と推論効率を妨げています。
DA3 チームは幾何モデリングの本質的な問いに立ち返りました:1 つのモデルが 3D 空間を完全に記述するために、いったい何を出力すべきなのか?チームは最終的に、「深度 - レイ」を統一表現として提案しました。深度はピクセルからカメラまでの距離を示し、レイはピクセルが三次元空間内で投影される方向を示します。この表現法は、3D 再構築に必要な中核的な幾何情報を完全かつ簡潔に網羅し、追加の冗長なタスク専用表現を必要としません。
既存の主流手法では通常、3D ポイントクラウドを中核表現として採用し、同一座標系下で異なる視点からのポイントクラウドを予測することで空間幾何の一貫性を制約しています。しかし、ポイントクラウドは空間幾何構造とカメラ運動を結合させてしまうため、モデルは両方の情報を同時に学習する必要が生じ、最適化の難易度が高まります。この結合を緩和するため、既存の主流手法では深度、カメラ運動情報、画像座標系におけるポイントクラウドをそれぞれ出力するための追加予測ヘッドを追加せざるを得ず、システム複雑性がさらに増大しています。
一方、「深度 - レイ」表現は幾何と運動を自然に解離させます。この方式により、モデルは高精度な幾何情報とカメラ運動情報をより容易に取得でき、3D ポイントクラウドも迅速に復元可能となり、出力表現の極簡化と高効率を実現します。
- 1 ステップで高精度出力を達成し、反復最適化を不要とする
上記の戦略を採用することで、DA3 は単なるフィードフォワード(前向き伝播)1 回で高精度な出力を生成でき、従来の手法で必要とされる複数回の反復最適化という複雑なプロセスを回避します。この設計により推論速度が大幅に向上し、学習と展開が簡素化されるとともに、3D 再構築タスクの精度と効率性が確保されます。
「パルクール」難易度のタスクにおいて、DA3 は優れた空間知覚能力を発揮しました。図に示す通り、モデルに長さ 28 秒のビデオを入力し、カメラレンズが高速で移動し、運動視点とシーンが急速に変化する状況下でも、DA3 は単一のフィードバック(前向き伝播)の中でカメラ運動、人物の運動軌跡、そしてシーンの詳細な変化を捉えることができます。
広範囲の環境において、精密な視覚幾何推定は SLAM(同期位置特定と地図構築)にとって極めて重要です。以下に示す通り、DA3 は 10 キロメートルという超大規模シーンにおける SLAM 再構築タスクにおいても優れた性能を維持しました。この優位性は、DA3 のアーキテクチャアプローチが小規模で静的なシナリオだけでなく、大規模で動的な環境においても信頼性の高い幾何再構築結果を提供できることを示しています。
実験により、DA3 は任意の画像に対するフィードフォワード 3D ガウス再構築および新視点レンダリングタスクにおいても、3D 空間構造を迅速に復元でき、新視点合成において極めて高い汎化能力を備えていることが示されました。
車両が複数の異なる視点から画像を撮影した場合、DA3 はシームレスに安定した融合可能な深度図を推定できます。このようにして、DA3 は自動運転システムが周囲環境の三次元構造をより精密に理解することを支援し、複雑なシーンにおける車両の知覚能力と意思決定能力を向上させます。
- チームの展望:人間レベルの視覚認識能力の実現
認知神経科学において、人間の大脳皮質は 2 つの視覚経路を通じて情報を処理します。1 つの経路は物体のアイデンティティや色などの意味情報(セマンティック・インフォメーション)を理解する役割を担い、もう 1 つの経路は物体の位置、運動、空間関係などの空間幾何情報(スペース・ジオメトリック・インフォメーション)を理解する役割を担います。人間はこの 2 つの経路の協働を通じて、視覚認識タスクを効率的に完了します。Depth Anything シリーズ研究の原点は、AI に人間のような空間知覚能力を持たせることにあります。
現在、視覚言語モデル(VLM)は意味理解の分野で顕著な進展を遂げており、一部のタスクではすでに人間レベルに達し、あるいはそれを上回るパフォーマンスを示しています。しかしながら、空間幾何知覚については依然として核心的な課題であり、AI はこの分野においてまだ初期段階にあり、さらなる技術的突破が必要です。
DA3 の進展は視覚空間再構築に新たな可能性をもたらしました。これは単眼深度推定(モノキュラー・ディプス・エスティメーション)や多視点再構築(マルチビュー・リコンストラクション)の技術的ボトルネックを打破し、精密な空間幾何知覚へと一歩前進したものです。チームは、空間インテリジェンスの発展に伴い、AI が画像内の意味情報だけでなく、意味認識と空間知覚を融合させることで、最終的に完全な視覚認識能力を実現することを期待しています。
原文を読む
WeChat で開くにはこちらへ
原文を表示
原创 Seed Research 2025-11-27 11:30 北京
突破单目深度估计和多视角重建的技术瓶颈
人类能够通过一张照片、一段视频,迅速在脑海中构建出一个空间的立体样貌。这种能力源于我们对不同视角空间几何关系的理解与推理,而机器想要理解、参与物理世界,就需要提升空间智能,对场景精准重建。
当前的视觉空间重建模型大多依赖复杂的架构和多任务学习方法,通过不同的网络模块分别处理深度估计、相机姿态估计和多视图几何重建等任务。然而,这些方法常常面临架构过于庞大、任务间耦合性强等问题,导致模型难以灵活应对多任务场景。
近日,字节跳动 Seed 团队发布视觉空间重建模型 Depth Anything 3(DA3)。
作为 Depth Anything 系列最新开源续作,它突破性地将单目深度估计的能力扩展至任意视角。与传统的多视图几何重建方法相比,DA3 不再依赖复杂的专用架构,通过一个简洁高效的 Transformer 模型,即可精准实现不同视角下的空间感知。
DA3 两大关键特征如下:
(1)架构简洁:仅需一个 Transformer,无需额外的定制化架构,模型即具备强大的视觉预训练能力,因架构轻量,训练与部署更高效。
(2)表征统一:采用单一的 “深度-射线” 表征法,无需引入额外的多任务训练方式,统一表征让模型专注于核心空间几何关系的学习,并在多个任务上获得更稳定的表现,实现精度与效率的双重优化。
DA3 能够快速完成不同场景的 3D 重建任务
通过采用“简洁设计 + 精准聚焦”的思路,DA3 刷新了业界视觉空间重建 SOTA 水平:在相机姿态精度任务中,DA3 较此前主流模型 VGGT 提升 35.7%;在几何重建精度上,DA3 较 VGGT 提升 23.6%;在单目深度估计任务上,DA2 此前已经达到 SOTA 性能,DA3 则在其基础上进一步提升。
Depth Anything 3 技术报告和模型代码已对外公开:
技术报告:
https://arxiv.org/abs/2511.10647
代码链接:
https://github.com/ByteDance-Seed/depth-anything-3
GitHub 主页:
https://depth-anything-3.github.io
HF Demo:
https://huggingface.co/spaces/depth-anything/depth-anything-3
- 去繁从简,提炼空间重建底层机制
在空间智能领域,3D 感知重建技术是连接二维视觉信息与三维物理世界的关键桥梁,广泛应用于自动驾驶、机器人、虚拟现实、建筑测绘等领域。不过,当前主流模型面临架构冗杂与输出表征耦合低效两大挑战,阻碍了 3D 感知重建技术的进一步发展。
DA3 回到空间几何建模的本质,以“最小建模方式”作为核心设计原则,重新界定了模型应具备的关键基础能力。
DA3 使用单一 Transformer,并引入输入自适应的跨视图自注意力机制,通过双 DPT 头,从视觉特征中预测深度图和射线图。
用单一架构聚焦几何本质
传统方法中,视觉空间重建模型应对不同任务时,需要分别搭建网络模块和接口,导致架构复杂,对计算资源要求极高。DA3 团队判断,几何空间重建在本质上都依赖跨视图特征关联和全局空间建模,这些可以在同一套建模机制中统一处理,无需为各任务额外设计专用模块。
基于任务抽象,团队回到模型能力的底层机制进行了推导:Transformer 的自注意力机制天然支持长距离依赖捕捉,能灵活处理任意数量输入视图,动态交换跨视图信息。它无需额外设计特征融合模块,即能匹配空间几何建模的核心需求。
实验结果也进一步表明,复杂的定制化架构虽可能在特定任务上带来微小的性能提升,但整体收益有限,训练与部署成本显著提高,且限制了在移动端和嵌入式场景的应用。
基于上述推导,DA3 采用单一 Transformer 作为基础结构,实现了简洁的模型设计,且可在不同 3D 任务上保持稳定、高效的推理表现。
打造视觉空间重建的最小完备输出
在 3D 重建任务中,输出形式与特定任务强绑定,不同形式之间缺乏统一逻辑关联,导致信息难以复用和共享。同时,冗余输出也增加了训练负担,干扰了核心几何信息的学习和推理效率。
DA3 团队回到几何建模的本质问题:一个模型到底需要输出什么,才能完整描述 3D 空间?团队最终提出以 “深度-射线” 作为统一表征,深度能给出像素到相机的距离,射线能给出像素在三维空间中的投影方向。这种表征法能够完整且简洁地涵盖 3D 重建所需的核心几何信息,无需额外输出冗余的任务专用表征。
现有主流方法通常采用 3D 点云作为核心表征,并在同一坐标系下预测不同视角的点云,以约束空间几何一致性。然而点云将空间几何结构与相机运动绑定,使模型必须同时学习两类信息,增加了优化难度。为缓解这一耦合,现有主流方法被迫添加额外的预测头来分别输出深度、相机运动信息、图片坐标下的点云,进一步加大了系统复杂度。
相比之下,“深度-射线”表征则将几何与运动自然解耦。通过这种方式,模型能更轻易地获取高精度的几何信息和相机运动信息,还能快速恢复 3D 点云,实现了输出表征的极简与高效。
- 一步完成高精度输出,无需迭代优化
采用上述策略,DA3 通过一次前馈即可生成高精度输出,避免了传统方法中需多次迭代优化的复杂过程。这种设计显著提升了推理速度,简化了训练与部署,同时确保了 3D 重建任务的精确和高效。
在“跑酷”难度级别的任务中,DA3 表现出优良的空间感知能力。如下图所示,给模型输入长度 28 秒的视频,相机镜头快速移动,运动视角与场景处于高速变化中,DA3 能够在单次反馈中捕捉到相机运动、人物运动轨迹和场景的细节变化。
在大范围的环境中,精确的视觉几何估计对 SLAM(同步定位与地图构建)至关重要。如下所示,DA3 在处理 10 公里超大场景 SLAM 重建任务中维持了优良性能。这一优势表明,DA3 的架构思路不仅适用于小规模、静态的场景,也能在大规模动态环境中,提供可靠的几何重建结果。
实验表明,DA3 在任意图像的前馈 3D 高斯重建和新视角渲染任务中,也可快速恢复 3D 空间结构,并在新视角合成上具备极强的泛化性。
车辆拍摄到多个不同视角的图像时,DA3 能够无缝地估计稳定且可融合的深度图。通过这种方式,DA3 可帮助自动驾驶系统更精确地理解周围环境的三维结构,提升车辆在复杂场景中的感知能力和决策能力。
- 团队展望:实现人类水平的视觉识别能力
在认知神经科学中,人类大脑皮层通过两条视觉通路处理信息:一条通路负责理解语义信息,如物体身份和颜色,另一条通路则负责理解空间几何信息,如物体位置、运动和空间关系。人类能够通过这两条通路的协作,高效地完成视觉识别任务。Depth Anything 系列研究的初心,便是让 AI 具备类人的空间感知能力。
目前,视觉语言模型已在语义理解方面取得显著突破,部分任务的表现已接近甚至超越人类水平。然而,空间几何感知依然是一个核心挑战,AI 在此领域尚处于初步阶段,需要进一步的技术突破。
DA3 的进展为视觉空间重建提供了新的可能性,它突破了单目深度估计和多视角重建的技术瓶颈,向精准的空间几何感知又迈进一步。团队期望,随着空间智能的发展,AI 不仅能理解图像中的语义信息,还将融合语义识别与空间感知,最终实现完整的视觉识别能力。
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み