生成AIが障害物を見通す無線視覚システムを改善
MIT研究チームは、ミリ波信号の反射データから隠れた物体の形状を再構築する際、生成AIを用いて欠損部分を補完し、障害物の背後にある物体や室内環境を高精度に可視化する新手法を開発した。
キーポイント
生成AIによる形状補完技術
無線信号の反射から得られた不完全な物体データに生成AIを適用し、欠損形状を高精度に復元する手法を実現。
単一固定レーダーによる室内再構築
固定された1台のレーダーから送信される信号を解析し、移動する人間や家具を含む部屋全体を再構築可能にした。
プライバシー保護と実用アプリケーション
カメラ方式とは異なり個人情報を取得せず、倉庫ロボットの検品やスマートホームロボットの安全な人間連携に応用可能。
影響分析・編集コメントを表示
影響分析
本技術は、従来のカメラやLiDARに依存しない「透過型可視化」の実現により、ロボットの環境認識パラダイムを転換させる可能性がある。生成AIによるデータ補完が解決した精度課題は、倉庫自動化やスマートホーム分野での実用化を加速させ、プライバシー保護と安全な人間-ロボット協働の新たな基準を確立する。
編集コメント
学術研究段階ながら、生成AIの「補完能力」を物理センサーデータ処理に応用した発想は秀逸である。実証実験が商業化へ向けて進むにつれ、ロボットの「目」の選択肢が大幅に広がるだろう。
MITの研究者たちは、ロボットが障害物を「見通して」隠れた物体を発見・操作できる技術を10年以上にわたり研究してきました。彼らの手法は、遮蔽物に隠れた物体で反射する、表面を透過する無線信号を利用しています。
現在、研究者たちは生成人工知能(AI)モデルを活用し、従来手法の精度を制限していた長年のボトルネックを克服しました。その結果、より正確な形状再構築を実現する新手法が生まれ、視界から遮られた物体をロボットが確実につかみ操作する能力の向上が期待されます。
この新技術は、反射した無線信号から隠れた物体の部分的な再構築を行い、特別に訓練された生成AIモデルを用いて形状の欠落部分を補完します。
研究者たちはまた、生成AIを用いて部屋全体(すべての家具を含む)を正確に再構築する拡張システムを開発しました。このシステムは、空間内を移動する人間に反射する、単一の固定レーダーから送信される無線信号を利用します。
これは、環境を走査するために無線センサーを移動ロボットに搭載する必要がある多くの既存手法が抱える主要な課題を克服するものです。また、一部で普及しているカメラベースの技術とは異なり、この手法は環境内にいる人々のプライバシーを保護します。
これらの革新により、倉庫ロボットが出荷前に梱包品を確認し、製品返品に伴う無駄を削減できる可能性があります。また、スマートホームロボットが部屋内の人の位置を理解することで、人間とロボットのインタラクションの安全性と効率性を向上させることも可能になります。
「我々が今回成し遂げたのは、無線反射を理解するのに役立つ生成AIモデルを開発したことです。これは多くの興味深い新たな応用を開くものであり、技術的にも能力の質的飛躍と言えます。以前は見ることのできなかった隙間を埋める段階から、反射を解釈しシーン全体を再構築できる段階へと進んだのです」と、電気工学・コンピュータ科学科准教授でMITメディアラボのSignal Kineticsグループディレクター、そしてこれらの技術に関する2本の論文のシニアオーサーであるファデル・アディブ氏は述べています。「我々はAIを用いて、ついに『無線視覚』を解き放ったのです。」
アディブ氏は、筆頭著者で研究助手のローラ・ドッズ氏、研究助手のメイジー・ラム氏、ワリード・アクバル氏、イーボ・チェン氏と共に最初の論文を執筆し、筆頭著者で元ポスドクのカイチェン・ジョウ氏、ドッズ氏、研究助手のサイエド・サアド・アフザル氏と共に2番目の論文を執筆しました。両論文はIEEE Conference on Computer Vision and Pattern Recognitionで発表される予定です。
鏡面反射の克服
アディブ・グループは以前、ミリ波(mmWave)信号を用いて、積み重なった物の下に埋もれた紛失した財布など、視界から隠れた3D物体の正確な再構築を行うことを実証していました。
これらの電波はWi-Fiで使われるものと同じ種類の信号であり、石膏ボード、プラスチック、段ボールなどの一般的な遮蔽物を透過し、隠れた物体で反射します。
しかし、ミリ波は通常、鏡面反射(specular reflection) の様式で反射します。これは、波が表面に衝突した後、単一の方向に反射することを意味します。そのため、表面の大部分は信号をミリ波センサーから遠ざかる方向に反射し、それらの領域を事実上「見えない」状態にしてしまいます。
「物体を再構築しようとするとき、我々が見ることができるのは上面だけで、底面や側面はまったく見えないのです」とドッズ氏は説明します。
研究者たちは以前、反射信号を解釈するために物理学の原理を用いていましたが、これでは再構築される3D形状の精度に限界がありました。
新しい論文では、彼らは部分的な再構築から欠落している部分を補完するために生成AIモデルを用いることで、その限界を克服しました。
「しかし、そこで課題となるのは、これらの隙間を埋めるようにモデルをどう訓練するか、ということです」とアディブ氏は言います。
通常、研究者は生成AIモデルを訓練するために非常に大規模なデータセットを使用します。これはClaudeやLlamaなどのモデルが印象的な性能を示す理由の一つです。しかし、訓練に十分な規模のミリ波データセットは存在しません。
そこで研究者たちは、大規模なコンピュータビジョンデータセットの画像を、ミリ波反射の特性を模倣するように変換しました。
「我々は鏡面反射の特性と、これらの反射から生じるノイズをシミュレートし、既存のデータセットを我々の領域に適用できるようにしました。これに必要な量の新規データを収集するには、数年かかったでしょう」とラム氏は言います。
研究者たちはミリ波反射の物理法則をこれらの変換データに直接組み込み、生成AIモデルに妥当な形状再構築を実行するよう訓練するための合成データセットを作成しました。
Wave-Formerと呼ばれるこの完全なシステムは、ミリ波反射に基づいて潜在的な物体表面の候補を提案し、それを生成AIモデルに与えて形状を完成させ、完全な再構築が得られるまで表面を繰り返し洗練させます。
Wave-Formerは、缶、箱、食器、果物など約70種類の日常品の忠実な再構築を生成することができ、最先端のベースライン手法と比較して精度を約20%向上させました。物体は段ボール、木材、石膏ボード、プラスチック、布の後ろや下に隠されていました。
「ゴースト」を見る
チームは同じアプローチを用いて、部屋内を移動する人間に反射するミリ波を活用し、室内シーン全体を完全に再構築する拡張システムを構築しました。
人間の動きはマルチパス反射(multipath reflection) を生み出します。一部のミリ波は人間で反射した後、壁や物体で再び反射し、センサーに戻ってくるのです、とドッズ氏は説明します。
これらの二次反射は、いわゆる「ゴースト信号(ghost signals)」を生み出します。これは、人間が移動するにつれて位置が変化する、元の信号の反射による複製です。これらのゴースト信号は通常ノイズとして廃棄されますが、部屋のレイアウトに関する情報も保持しています。
「時間の経過に伴うこれらの反射の変化を分析することで、我々は周囲の環境について大まかな理解を得始めることができます。しかし、これらの信号を直接解釈しようとすると、精度と解像度に限界がありました」とドッズ氏は言います。
彼らは同様の訓練方法を用いて、生成AIモデルにそれらの大まかなシーン再構築を解釈し、マルチパスミリ波反射の挙動を理解するように教え込みました。このモデルは隙間を埋め、シーンを完成させるまで初期の再構築を洗練させます。
彼らはRISEと呼ばれるこのシーン再構築システムを、単一のミリ波レーダーで捕捉した100以上に及ぶ人間の移動軌跡を用いてテストしました。平均して、RISEは既存技術と比較して約2倍の精度で再構築を生成しました。
将来、研究者たちは再構築の精細さと詳細度を向上させたいと考えています。また、言語や視覚のためのGPT、Claude、Geminiなどの基盤モデル(foundation models) のように、無線信号のための大規模な基盤モデルを構築したいと考えており、それは新たな応用の扉を開く可能性があります。
この研究は、米国国立科学財団(NSF)、MITメディアラボ、アマゾンからの支援の一部を受けて行われました。
原文を表示
MIT researchers have spent more than a decade studying techniques that enable robots to find and manipulate hidden objects by “seeing” through obstacles. Their methods utilize surface-penetrating wireless signals that reflect off concealed items.
Now, the researchers are leveraging generative artificial intelligence models to overcome a longstanding bottleneck that limited the precision of prior approaches. The result is a new method that produces more accurate shape reconstructions, which could improve a robot’s ability to reliably grasp and manipulate objects that are blocked from view.
This new technique builds a partial reconstruction of a hidden object from reflected wireless signals and fills in the missing parts of its shape using a specially trained generative AI model.
The researchers also introduced an expanded system that uses generative AI to accurately reconstruct an entire room, including all the furniture. The system utilizes wireless signals sent from one stationary radar, which reflect off humans moving in the space.
This overcomes one key challenge of many existing methods, which require a wireless sensor to be mounted on a mobile robot to scan the environment. And unlike some popular camera-based techniques, their method preserves the privacy of people in the environment.
These innovations could enable warehouse robots to verify packed items before shipping, eliminating waste from product returns. They could also allow smart home robots to understand someone’s location in a room, improving the safety and efficiency of human-robot interaction.
“What we’ve done now is develop generative AI models that help us understand wireless reflections. This opens up a lot of interesting new applications, but technically it is also a qualitative leap in capabilities, from being able to fill in gaps we were not able to see before to being able to interpret reflections and reconstruct entire scenes,” says Fadel Adib, associate professor in the Department of Electrical Engineering and Computer Science, director of the Signal Kinetics group in the MIT Media Lab, and senior author of two papers on these techniques. “We are using AI to finally unlock wireless vision.”
Adib is joined on the first paper by lead author and research assistant Laura Dodds; as well as research assistants Maisy Lam, Waleed Akbar, and Yibo Cheng; and on the second paper by lead author and former postdoc Kaichen Zhou; Dodds; and research assistant Sayed Saad Afzal. Both papers will be presented at the IEEE Conference on Computer Vision and Pattern Recognition.
Surmounting specularity
The Adib Group previously demonstrated the use of millimeter wave (mmWave) signals to create accurate reconstructions of 3D objects that are hidden from view, like a lost wallet buried under a pile.
These waves, which are the same type of signals used in Wi-Fi, can pass through common obstructions like drywall, plastic, and cardboard, and reflect off hidden objects.
But mmWaves usually reflect in a specular manner, which means a wave reflects in a single direction after striking a surface. So large portions of the surface will reflect signals away from the mmWave sensor, making those areas effectively invisible.
“When we want to reconstruct an object, we are only able to see the top surface and we can’t see any of the bottom or sides,” Dodds explains.
The researchers previously used principles from physics to interpret reflected signals, but this limits the accuracy of the reconstructed 3D shape.
In the new papers, they overcame that limitation by using a generative AI model to fill in parts that are missing from a partial reconstruction.
“But the challenge then becomes: How do you train these models to fill in these gaps?” Adib says.
Usually, researchers use extremely large datasets to train a generative AI model, which is one reason models like Claude and Llama exhibit such impressive performance. But no mmWave datasets are large enough for training.
Instead, the researchers adapted the images in large computer vision datasets to mimic the properties in mmWave reflections.
“We were simulating the property of specularity and the noise we get from these reflections so we can apply existing datasets to our domain. It would have taken years for us to collect enough new data to do this,” Lam says.
The researchers embed the physics of mmWave reflections directly into these adapted data, creating a synthetic dataset they use to teach a generative AI model to perform plausible shape reconstructions.
The complete system, called Wave-Former, proposes a set of potential object surfaces based on mmWave reflections, feeds them to the generative AI model to complete the shape, and then refines the surfaces until it achieves a full reconstruction.
Wave-Former was able to generate faithful reconstructions of about 70 everyday objects, such as cans, boxes, utensils, and fruit, boosting accuracy by nearly 20 percent over state-of-the-art baselines. The objects were hidden behind or under cardboard, wood, drywall, plastic, and fabric.
Seeing “ghosts”
The team used this same approach to build an expanded system that fully reconstructs entire indoor scenes by leveraging mmWave reflections off humans moving in a room.
Human motion generates multipath reflections. Some mmWaves reflect off the human, then reflect again off a wall or object, and then arrive back at the sensor, Dodds explains.
These secondary reflections create so-called “ghost signals,” which are reflected copies of the original signal that change location as a human moves. These ghost signals are usually discarded as noise, but they also hold information about the layout of the room.
“By analyzing how these reflections change over time, we can start to get a coarse understanding of the environment around us. But trying to directly interpret these signals is going to be limited in accuracy and resolution.” Dodds says.
They used a similar training method to teach a generative AI model to interpret those coarse scene reconstructions and understand the behavior of multipath mmWave reflections. This model fills in the gaps, refining the initial reconstruction until it completes the scene.
They tested their scene reconstruction system, called RISE, using more than 100 human trajectories captured by a single mmWave radar. On average, RISE generated reconstructions that were about twice as precise than existing techniques.
In the future, the researchers want to improve the granularity and detail in their reconstructions. They also want to build large foundation models for wireless signals, like the foundation models GPT, Claude, and Gemini for language and vision, which could open new applications.
This work is supported, in part, by the National Science Foundation (NSF), the MIT Media Lab, and Amazon.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み