Introducing WildDet3D: Open-world 3D detection from a single image｜WildDet3Dの紹介：単一画像からのオープンワールド3D検出 | AIニュース最前線

***4/21 更新：トレーニングコードと更新された推論コードが利用可能になりました*** WildDet3D をさらにオープンなものにしました。本日、モデルの仕組みをより容易に研究し、それを基盤として構築できるようにするため、トレーニングコード、更新された推論コード、およびトレーニングとデータ準備の手順を公開します。 この更新により、研究者や開発者は WildDet3D の背後にある技術スタックを検証し、独自のユースケースに適応させることができます。コードは [こちら](https://github.com/allenai/WildDet3D) で入手可能です。皆様からのフィードバックをお待ちしています。 *以下にオリジナルの投稿を掲載します。* ほとんどのビジョンシステムは画像内に何が写っているかを伝えることはできますが、単一の写真からその物体が三次元空間内のどこにあるか（距離、大きさ、向き）を特定できるシステムはごくわずかです。これが空間知能のコアとなる課題です：物体が何であるかだけでなく、物理世界において*どのように*存在しているかを理解することです。建設現場を走行する自動運転車、荷物を仕分けする倉庫ロボット、街路に方向指示を重ねる AR アプリケーション——これらすべては、あらゆるカメラからのデータに対して、あらゆる物体について精密な 3D 理解が必要とされます。 技術用語：ビジョンシステム (vision systems), 三次元空間 (three dimensions), 空間知能 (spatial intelligence), 自動運転車 (autonomous vehicle), AR アプリケーション (AR app) 近年、自然言語を用いて 2D 画像内の物体を検出・ラベル付けする技術は急速に進歩しました。しかし、単一画像から 3D 構造を復元することは依然として根本的に難しく、特にシステムが固定されたカテゴリリストを超えて動作し、異なる指定方法に対応し、解像度、アスペクト比、光学特性の異なるカメラ間でも汎化できる必要がある場合です。既存のアプローチの多くは、運転や屋内シーンといった限られたドメインのみをカバーするか、単一のプロンプトタイプしかサポートせず、特定のハードウェア設定を前提としています。また、利用可能な追加的な深度情報（depth cues）を活用できるケースはほとんどありません。 本日、私たちはモノキュラー 3D 検出のためのオープンモデル「WildDet3D」[WildDet3D](https://huggingface.co/collections/allenai/wilddet3d) をリリースします。単一の RGB 画像を入力として与えると、物体の位置、サイズ、向きをメトリック座標系で推定する 3D バウンディングボックス（3D bounding box）を予測し、テキストクエリ、ポイントプロンプト、2D バウンディングボックスなど複数のプロンプトタイプを受け付けます。「消火栓」のようなカテゴリを入力すればシーン内のすべてのインスタンスを検出し、物体をタップすると完全な 3D バウンディングボックスが返され、他のモデルからの 2D 検出結果を入力すればそれを 3D 空間へ変換します。 WildDet3D は、細かく調整（fine-tuning）することなく、切り抜かれた携帯電話の写真、広角アクションカメラのフレーム、ロボットのカメラフィードといった多様な入力に対応できます。また、スパース深度（sparse depth）、LiDAR、TOF などの追加的な幾何学的信号が利用可能な場合、WildDet3D はそれらを統合して予測をより鋭敏にします。 モデルとともに、[WildDet3D-Data](https://huggingface.co/datasets/allenai/WildDet3D-Data) も公開します。これは 13,000 以上のオブジェクトカテゴリにわたる 370 万件の検証済み 3D アノテーションを含む 100 万枚を超える画像、そのうち 10 万件以上が人間による注釈付きの画像、および評価資料とインタラクティブなデモを含んでいます。また、ライブカメラ入力と LiDAR（ライダー）深度データを活用して、リアルタイムで AR オーバーレイとして 3D バウンディングボックスを描画する [iOS デモアプリ](https://apps.apple.com/us/app/wilddet3d/id6760861157) も公開しています。 すべてがオープンに利用可能です。空間知能における進展は、検証可能で再現性があり、より広範な研究コミュニティによって構築されるべきだと信じているからです。 ## 一つのアーキテクチャ、多くのプロンプトタイプ WildDet3D は、単一の幾何学認識アーキテクチャ内で複数のプロンプトモダリティをサポートしています。カテゴリ名によるプロンプトでは、オブジェクトの種類でクエリを実行できます。「椅子」と入力すると、モデルはシーン内のすべての椅子を検出し、3 次元空間上で局在化します。ポイントプロンプトでは、オブジェクトをクリックして対話的に選択できます。ボックスプロンプトでは、2D バウンディングボックスを指定し、システムが完全な 3D の範囲を推論します。 より豊かなインタラクションを実現するために、WildDet3D は Molmo 2 などのビジョン・ランゲージモデル（VLM）と組み合わせることができます。VLM がユーザーの質問内容を解釈した上で、関連する領域を WildDet3D に引き渡し、3 次元局在化を行います。これはつまり、WildDet3D がより大きなパイプライン内で空間推論層として機能し、カテゴリ名、ポイント、または 2D バウンディングボックスを生成できるあらゆるシステムに 3 次元理解能力を追加できることを意味します。 この柔軟性は、ゼロショット 3D 追跡への道も開きます。WildDet3D は、任意の上位検出器や追跡器からの 2D バウンディングボックスを受け取り、それをフレームごとに 3D フレームへと変換できるため、追跡データで学習した経験がなくても、動画ストリーム全体にわたってオブジェクトの連続的な 3D 位置情報を提供できます。スマートグラスのようなウェアラブルカメラと組み合わせれば、視覚フィードのみによって駆動され、周囲のオブジェクトに対する持続的な空間認識をサポートするアーキテクチャとなり得ます（ただし、現在のフルモデルはリアルタイムなデバイス上での利用にはサーバーサイドでの計算リソースが必要か、さらなる最適化が必要です）。 内部では、3 つのコンポーネントが連携して動作します。第一に、SAM3 視覚バックボーンを基盤とした 2D 検出器があり、すべてのプロンプトタイプを受け入れて画像内のオブジェクトを特定します。第二に、凍結された DINOv2 エンコーダと訓練可能な深度デコーダからなる独立したジオメトリバックエンドが、ピクセルごとの深度を推定し、ジオメトリ認識機能を持つ特徴量を生成します。これら 2 つのブランチは効率のために並列で実行されます。第三に、3D 検出ヘッドがクロスアテンションを通じて 2D 検出結果と深度特徴を融合させ、位置、寸法、向きを含む完全な 3D バウンディングボックス予測へと 2D の証拠を変換します。 重要な設計上の選択として、ジオメトリバックエンドはモジュール化されており、検出バックボーンから分離されているため、システムを再構築することなく異なる深度モデルを交換できます。また、このバックエンドは、カメラ光線の方向の球面調和関数符号化を用いてカメラ幾何学を直接特徴量に埋め込むことで機能する「レイアウェアデコーダ（ray-aware decoder）」を採用しており、別途カメラキャリブレーションブランチを必要としません。 推論時にスパースまたは部分的な深度データが利用可能である場合（LiDAR センサー、RGB-D カメラ、ステレオセットアップから取得されたものなど）、このバックエンドにシームレスに流入し、全体のパイプラインに変更を加えることなく位置特定を向上させます。 より優れた 3D 知覚を実現するには、単にモデルを改善するだけでなく、標準的なベンチマークを超えた多様な物体を反映したトレーニングデータが必要です。WildDet3D を補完するために構築された「WildDet3D-Data」は、COCO、LVIS、Objects365、V3Det といった既存の大規模 2D 検出データセット内の物体に対して候補となる 3D ボックスを生成し、5 つの相補的な 3D 推定手法を用いて作成した後、候補の精査とフィルタリングを行い、さらに VLM（Vision Language Model）ベースの選別および人間の選別を経て最終的に構築されました。このキュレーションプロセスにより、13,000 以上のカテゴリにわたる 370 万件の検証済み 3D アノテーションを含む 100 万枚を超える画像が生成され、その中にはさらに慎重に人間によって選択された 10 万枚超の画像からなるコアセットが含まれており、既存の 3D データセット単独が提供する範囲を遥かに上回る広がりを持っています。 このデータでのトレーニングが、WildDet3D に狭義のベンチマーク分類体系を超えた一般化能力をもたらします。以下に示す通り、野外環境における 700 以上の物体カテゴリ全体で性能が向上しています。 ## ベンチマーク全体で強力、ゼロショット転移 WildDet3D の評価は、確立されたベンチマーク上での精度と、新しいドメインやカテゴリへの一般化能力の両方をテストするために、複数の設定で行いました。 単眼 3D 検出のための標準スイートである Omni3D（屋内・屋外の 6 つのデータセットにまたがり、50 カテゴリをカバー）において、WildDet3D はテキストプロンプトを使用した場合に 34.2 AP（Average Precision：予測された 3D ボックスが位置とサイズにおいて正解値にどれだけ正確に一致するかを示す指標）を達成し、前記録（3D-MOOD）に対して 5.8 ポイントの改善となりました。また、オラクルボックスプロンプトを使用した場合、36.4 AP を達成し、DetAny3D よりも 2.0 ポイント上回りました。これは、SAM3 および DINOv2 から得られる高品質な事前学習済み表現（pretrained representations）により可能となり、従来の手法が 80〜120 エポックを要するのに対し、わずか 12 エポックで達成しています。テスト時にスパース深度（sparse depth：点群データなどから推定された不十分な深度情報）が提供される場合、さらに性能は向上し、テキストプロンプトでは 41.6 AP、オラクルプロンプトでは 45.8 AP を記録します。特に深度センサーが一般的に使用されている屋内データセットにおいて、この改善幅は最も顕著です。 Omni3D の学習分布を超えた一般化能力を検証するため、Argoverse 2（26 の物体カテゴリを有する自動運転用データセット）および ScanNet（18 のカテゴリを有する屋内シーン用データセット）を含むデータセットでゼロショット評価を行いました。性能は、精度、位置推定精度、スケール、姿勢の品質を組み合わせた複合指標である Open Detection Score (ODS) によって測定されます。 WildDet3D は Argoverse 2 で ODS 40.3 を達成し、以前の最高値 23.8 と比較してほぼ倍増しました。また ScanNet では ODS 48.9 を記録し、17.4 ポイントの向上となりました。この改善は Omni3D に含まれていない新規カテゴリ（物体）において最も顕著です。これらのカテゴリでは、Argoverse 2 で ODS 38.6 を達成し、以前の最高値である 14.8 を大きく上回りました。また ScanNet では 45.8 対 15.7 となり、このモデルの視覚バックボーンが未知の物体に対して従来アーキテクチャよりもはるかに効果的に転移できることを示唆しています。同様の傾向は、実測ステレオ深度を備えたゼロショットベンチマークである Stereo4D でも確認されました。深度情報なしでも、WildDet3D はボックスプロンプトモードで 7.5 AP を記録しすでに競争力があります。テスト時に実測のステレオ深度が提供されると、オラクルボックスプロンプト設定において 27.7 AP に上昇します。これは、同一アーキテクチャが Omni3D の学習分布を超えて一般化でき、利用可能な場合は幾何学的信号を効果的に活用できることを示す証拠です。 **700 以上のオブジェクトカテゴリにわたる野外評価。** より広範な一般化能力を検証するため、WildDet3D を **WildDet3D-Bench**（出現頻度に基づいて分類された 700 以上のオブジェクトカテゴリをカバーする野外ベンチマーク）で評価しました。このベンチマークでは、カテゴリを「レア（サンプル数が 5 未満）」、「コモン（5〜20 個）」「フリーquent（20 個以上）」の 3 つにグループ化しています。Omni3D のみで訓練した場合でも、WildDet3D はテキストプロンプトモードで AP6.8 を達成し、すでに最強の 3D-MOOD ベースラインである 2.3 AP を上回っています。追加の訓練データを用いることで、WildDet3D はテキストプロンプトモードで AP22.6 に到達します（これは 3D-MOOD ベースライン（Swin-T）の 2.3 AP から大幅な向上です）。テスト時に真値深度情報が利用可能な場合、完全モデルは AP41.6 を達成します。この性能向上はすべての頻度バケットで確認され、特にレアカテゴリでの飛躍が顕著です。WildDet3D は 47.4 AP を達成するのに対し、3D-MOOD は 2.4 に留まりました。これは、本モデルが訓練時に最も多く出現したカテゴリだけでなく、ロングテールに属するオープンワールドオブジェクトにも効果的に転移していることを示す極めて強力な証拠です。 なぜこれが重要なのか、そして次への展望 WildDet3D は空間知能において意味ある進歩を遂げました。このモデルは複数のプロンプトタイプを統合し、3D 検出をより拡張可能で実用的なものにしています。これは、オープンボキャブラリな 3D 知覚が狭い分類体系を超えて一般化できることを示しており、特にモデルが訓練したことがないカテゴリにおいてもその能力を発揮します。また、モノキュラー（単眼）の 3D システムは、利用可能なより豊かな幾何情報を無視する必要はないことも示しています。同じアーキテクチャで RGB のみから推論することも可能でありながら、追加的な深度手がかりが存在する場合にはその恩恵も受けられます。さらに、これらは従来の手法よりも大幅に少ない学習計算量で達成されています。 今回のリリースに伴い、[WildDet3D モデル](https://huggingface.co/collections/allenai/wilddet3d)、[WildDet3D-Data データセット](https://huggingface.co/datasets/allenai/WildDet3D-Data)、[iOS アプリ](https://apps.apple.com/us/app/wilddet3d/id6760861157)、評価や実験のための[サポート資料](https://github.com/allenai/WildDet3D)、そして[インタラクティブなデモ](https://huggingface.co/spaces/allenai/WildDet3D)を、すべてオープンにアクセス可能となる形で提供いたします。 空間知能は AI が向かうべき方向の中核です。AR アプリで街路に方向指示を重ねるのを支援する同じモデルが、棚にある荷物のサイズをロボットが推定するのを助けたり、スマートグラス向けの 3D 認識アプリケーションを支えたりします。そして最も興味深い応用は、まだ誰も構築していないものだと私たちは考えています。 最新の Ai2 のニュースに関する月次更新を受け取るには、購読してください。

WildDet3Dの紹介：単一画像からのオープンワールド3D検出

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト