MELON: 未知の姿勢の画像から3Dオブジェクトを再構築
Google ResearchのMELONは、未知のカメラ位置から少数の2D画像だけで3Dオブジェクトを再構築する技術を開発し、従来の「鶏と卵」問題を解決した。
キーポイント
未知のカメラ位置からの3D再構築
従来の手法ではカメラ位置(ポーズ)が既知である必要があったが、MELONはポーズが未知の状態でも3Dオブジェクトを再構築できる。
疑似対称性問題の解決
正方形の椅子など90度回転で似た見た目になるオブジェクトの疑似対称性問題を、自己類似性マップを用いて解決した。
実用的な応用範囲
eコマースの3Dモデル作成から自動運転車のナビゲーションまで、幅広い分野での応用が期待される。
既存技術との連携可能性
NeRF(Neural Radiance Fields)や3D Gaussian Splattingなどの既存の3D再構築技術と組み合わせて使用できる。
影響分析・編集コメントを表示
影響分析
この技術は、3Dモデリングのプロセスを大幅に簡素化し、専門知識や高価な設備がなくても3Dコンテンツを作成できる可能性を開く。特にeコマースやAR/VR、自動運転などの分野で実用化が進めば、産業全体の効率化と新たなビジネスモデルの創出につながる。
編集コメント
3Dモデリングの民主化を進める重要な一歩。実用化されれば、誰でも簡単に3Dコンテンツを作成できる時代が近づく。
<span class="byline-author">Posted by Mark Matthews, Senior Software Engineer, and Dmitry Lagun, Research Scientist, Google Research</span>
<img src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEh8LjCbKjfNXVUyCpGiZysx_pNF5BK8p5VBCJXXPaz_Bb75CW-33weoMh0YaNcn4AdmGN-Pufd_XlsRzo2MWZLQxqgtri7Nip9tXoGX0CritvRKF-63StOWxp_gVaY-MTnOk9IvJdVt_CczVR6Ip_R8Yv32MHTw2-FckCTF4UOFrgMyq3PCPCkZaZ-nyMcE/s320/MELON%20HERO.jpg" style="display: none;" />
<p>
人は、世界に関する事前の経験と理解を持っているため、たとえ2Dの写真を数枚見ただけでも、物体全体がどのように見えるかを容易に推測することができます。しかし、コンピュータがわずか数枚の画像から物体の3D形状を再構築する能力は、長年にわたって困難なアルゴリズム上の問題であり続けてきました。この基本的なコンピュータビジョンのタスクは、eコマース用の3Dモデルの作成から自動運転車のナビゲーションまで、幅広い応用があります。
</p>
<p>
この問題の重要な部分は、画像が撮影された正確な位置、すなわち<em>姿勢推定</em>をどのように決定するかです。カメラの姿勢が既知であれば、<a href="https://www.matthewtancik.com/nerf">Neural Radiance Fields (NeRF)</a>や<a href="https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/">3D Gaussian Splatting</a>など、一連の成功した技術を用いて物体を3Dで再構築できます。しかし、これらの姿勢が利用できない場合、私たちは困難な「鶏と卵」問題に直面します。つまり、3Dオブジェクトがわかれば姿勢を決定できるのに、カメラ姿勢がわかるまでは3Dオブジェクトを再構築できないのです。この問題は、疑似対称性によってさらに難しくなります。疑似対称性とは、多くの物体が異なる角度から見ると似て見えることです。例えば、椅子のような四角い物体は、90°回転するごとに似たように見える傾向があります。物体の疑似対称性は、ターンテーブル上で様々な角度からレンダリングし、その測光的な<a href="https://en.wikipedia.org/wiki/Self-similarity">自己相似性</a>マップをプロットすることで明らかになります。
</p>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto;"><tbody><tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjt0nP5M8f5UodttSIPoY5t0JRXEuLosGgock3B0lyOzIn4icGF5jwVuxgX0PiRqc0kBbJ36CLiGA3KPrmaQbjKElGeHrsSRmkpDppU9abE84nuYu9MquqE3gULDzz_INDutmL2i1Wv3_tUpTh5U9UwSck9YRUeVyg-md2GByg3EQYYy7Vs_aeTEk5akpSo/s1764/image5.png" style="margin-left: auto; margin-right: auto;"><img border="0" data-original-height="923" data-original-width="1764" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjt0nP5M8f5UodttSIPoY5t0JRXEuLosGgock3B0lyOzIn4icGF5jwVuxgX0PiRqc0kBbJ36CLiGA3KPrmaQbjKElGeHrsSRmkpDppU9abE84nuYu9MquqE3gULDzz_INDutmL2i1Wv3_tUpTh5U9UwSck9YRUeVyg-md2GByg3EQYYy7Vs_aeTEk5akpSo/s16000/image5.png" /></a></td></tr><tr><td class="tr-caption" style="text-align: center;">おもちゃのトラックモデルの自己相似性マップ。<strong>左:</strong> モデルがターンテーブル上で様々な<a href="https://en.wikipedia.org/wiki/Azimuth">方位角</a>θからレンダリングされている。<strong>右:</strong> 角度θからのレンダリングと角度θ*からのレンダリングの平均<a href="https://en.wikipedia.org/wiki/Norm_(mathematics)#Euclidean_norm">L2</a> RGB類似度。疑似相似性は赤い破線で示されている。</td></tr></tbody></table>
<p>
上の図は、回転の1次元のみを可視化しています。自由度が増えると、さらに複雑になり(可視化も困難になります)、疑似対称性は問題を<em>不良設定</em>にし、単純なアプローチではしばしば局所解に収束してしまいます。実際には、そのようなアプローチは、物体の背面図と正面図が似たシルエットを共有しているため、背面図を正面図と誤認する可能性があります。従来の技術(<a href="https://chenhsuanlin.bitbucket.io/bundle-adjusting-NeRF/">BARF</a>や<a href="https://arxiv.org/abs/2205.15768">SAMURAI</a>など)は、大域解に近い初期姿勢推定値に依存することでこの問題を回避しています。しかし、それらが利用できない場合、どのようにアプローチすればよいのでしょうか?
</p>
<p>
<a href="https://openaccess.thecvf.com/content/ICCV2021/papers/Meng_GNeRF_GAN-Based_Neural_Radiance_Field_Without_Posed_Camera_ICCV_2021_paper.pdf">GNeRF</a>や<a href="https://dl.acm.org/doi/10.1145/3503161.3548078">VMRF</a>などの手法は、この問題を克服するために<a href="https://en.wikipedia.org/wiki/Generative_adversarial_network">生成的敵対的ネットワーク</a>(GAN)を活用しています。これらの技術は、限られた数のトレーニングビューを人工的に「増幅」する能力を持ち、再構築を助けます。しかし、GAN技術はしばしば複雑で、そ
原文を表示
<span class="byline-author">Posted by Mark Matthews, Senior Software Engineer, and Dmitry Lagun, Research Scientist, Google Research</span>
<img src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEh8LjCbKjfNXVUyCpGiZysx_pNF5BK8p5VBCJXXPaz_Bb75CW-33weoMh0YaNcn4AdmGN-Pufd_XlsRzo2MWZLQxqgtri7Nip9tXoGX0CritvRKF-63StOWxp_gVaY-MTnOk9IvJdVt_CczVR6Ip_R8Yv32MHTw2-FckCTF4UOFrgMyq3PCPCkZaZ-nyMcE/s320/MELON%20HERO.jpg" style="display: none;" />
<p>
A person's prior experience and understanding of the world generally enables them to easily infer what an object looks like in whole, even if only looking at a few 2D pictures of it. Yet the capacity for a computer to reconstruct the shape of an object in 3D given only a few images has remained a difficult algorithmic problem for years. This fundamental computer vision task has applications ranging from the creation of e-commerce 3D models to autonomous vehicle navigation.
</p>
<a name='more'></a>
<p>
A key part of the problem is how to determine the exact positions from which images were taken, known as <em>pose inference</em>. If camera poses are known, a range of successful techniques — such as <a href="https://www.matthewtancik.com/nerf">neural radiance fields</a> (NeRF) or <a href="https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/">3D Gaussian Splatting</a> — can reconstruct an object in 3D. But if these poses are not available, then we face a difficult “chicken and egg” problem where we could determine the poses if we knew the 3D object, but we can’t reconstruct the 3D object until we know the camera poses. The problem is made harder by pseudo-symmetries — i.e., many objects look similar when viewed from different angles. For example, square objects like a chair tend to look similar every 90° rotation. Pseudo-symmetries of an object can be revealed by rendering it on a turntable from various angles and plotting its photometric <a href="https://en.wikipedia.org/wiki/Self-similarity">self-similarity</a> map.
</p>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto;"><tbody><tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjt0nP5M8f5UodttSIPoY5t0JRXEuLosGgock3B0lyOzIn4icGF5jwVuxgX0PiRqc0kBbJ36CLiGA3KPrmaQbjKElGeHrsSRmkpDppU9abE84nuYu9MquqE3gULDzz_INDutmL2i1Wv3_tUpTh5U9UwSck9YRUeVyg-md2GByg3EQYYy7Vs_aeTEk5akpSo/s1764/image5.png" style="margin-left: auto; margin-right: auto;"><img border="0" data-original-height="923" data-original-width="1764" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjt0nP5M8f5UodttSIPoY5t0JRXEuLosGgock3B0lyOzIn4icGF5jwVuxgX0PiRqc0kBbJ36CLiGA3KPrmaQbjKElGeHrsSRmkpDppU9abE84nuYu9MquqE3gULDzz_INDutmL2i1Wv3_tUpTh5U9UwSck9YRUeVyg-md2GByg3EQYYy7Vs_aeTEk5akpSo/s16000/image5.png" /></a></td></tr><tr><td class="tr-caption" style="text-align: center;">Self-Similarity map of a toy truck model. <strong>Left:</strong> The model is rendered on a turntable from various <a href="https://en.wikipedia.org/wiki/Azimuth">azimuthal angles</a>, θ. <strong>Right:</strong> The average <a href="https://en.wikipedia.org/wiki/Norm_(mathematics)#Euclidean_norm">L2</a> RGB similarity of a rendering from θ with that of θ*. The pseudo-similarities are indicated by the dashed red lines.</td></tr></tbody></table>
<p>
The diagram above only visualizes one dimension of rotation. It becomes even more complex (and difficult to visualize) when introducing more degrees of freedom. Pseudo-symmetries make the problem <em>ill-posed</em>, with naïve approaches often converging to local minima. In practice, such an approach might mistake the back view as the front view of an object, because they share a similar silhouette. Previous techniques (such as <a href="https://chenhsuanlin.bitbucket.io/bundle-adjusting-NeRF/">BARF</a> or <a href="https://arxiv.org/abs/2205.15768">SAMURAI</a>) side-step this problem by relying on an initial pose estimate that starts close to the global minima. But how can we approach this if those aren’t available?
</p>
<p>
Methods, such as <a href="https://openaccess.thecvf.com/content/ICCV2021/papers/Meng_GNeRF_GAN-Based_Neural_Radiance_Field_Without_Posed_Camera_ICCV_2021_paper.pdf">GNeRF</a> and <a href="https://dl.acm.org/doi/10.1145/3503161.3548078">VMRF</a> leverage <a href="https://en.wikipedia.org/wiki/Generative_adversarial_network">generative adversarial networks</a> (GANs) to overcome the problem. These techniques have the ability to artificially “amplify” a limited number of training views, aiding reconstruction. GAN techniques, however, often have complex, so
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み