MIT の新チップが複雑な環境を移動する小型ロボットの支援へ
MIT の研究チームが、LED1 個分の消費電力でリアルタイムの 3D マッピングを可能にする新チップを開発し、小型ロボットの自律航行や拡張現実デバイスの応用可能性を大幅に向上させた。
キーポイント
超低消費電力での 3D マッピング実現
新チップは約 6 ミリワットという極めて低い電力で、環境の詳細な 3D マップをリアルタイムに生成・保存できる。
ガウシアン法による効率的な表現
従来のボクセル(立方体)ではなく、曲面に適応する楕円体の「ガウシアン」を用いることで、メモリと計算負荷を大幅に削減している。
アルゴリズムとハードウェアの共設計
効率的なマッピングアルゴリズムと、その処理を加速する専用ハードウェアを統合したシステムオンチップ(SoC)として実装された。
影響分析・編集コメントを表示
影響分析
この技術は、バッテリー容量と計算リソースに厳しい制約がある自律型ロボットやウェアラブルデバイスにおいて、従来不可能だった高度な環境認識を可能にする突破口となる。特に、エネルギー効率の極限まで追求したアルゴリズムとハードウェアの共設計手法は、次世代のエッジ AI デバイス開発における重要な指針を示すものである。
編集コメント
電力効率と計算能力の両立というロボット分野の長年の課題に対し、アルゴリズムとハードウェアの統合設計で決定的な解決策を示した画期的な成果です。
MIT の研究者が開発した新しいチップは、産業用 HVAC システム内の狭い角を素早く移動してガス漏れを検査する際、小型で低消費電力の UAV が障害物を回避するのに役立ちます。
このチップにより、小型の自律型ロボットやバッテリー制限のある他のデバイスが、単一の LED とほぼ同じだけの電力しか使用せずに、リアルタイムで環境の詳細な 3D マップを構築できるようになります。ロボットはこのようなマップを使用して、目標地点に到達するための衝突のない経路を計画できます。
通常、このような包括的なマップを生成するには、ロボットの環境内の障害物の 3D 表現を構築して保存するために、電力を多く消費するシステムと大量のメモリが必要です。
MIT の研究者たちは、極めて効率的なマッピングアルゴリズムと、その作業負荷を加速するように設計された専用ハードウェアを組み合わせた異なるアプローチを採用し、メモリーと電力消費を最小限に抑えました。
このチップ(SoC: System on a Chip)は、わずか約 6 ミリワットの電力しか消費せず、他のシステムに必要な電力のごく一部です。
この低消費電力動作により、このチップは教育用医療シミュレーションや詳細な修理・組立作業などの用途において、長時間装着可能な軽量拡張現実(AR: Augmented Reality)ヘッドセットにも適しています。
「この論文は、アルゴリズムとハードウェアの共設計を活用してエネルギー効率をいかに飛躍的に向上させるかを示す重要な事例です。コンパクトな 3D マップに関する研究は数多く行われてきましたが、本稿の特徴は、そのようなマップを生成するプロセス自体も可能な限り効率的であることを保証している点にあります。当社のチップを使えば、非常に大きなマップを極めて小さなスペースに保存でき、かつエネルギー効率の高い方法で実現できます」と、電気工学・コンピュータサイエンス学部(EECS)の教授であり、電子研究所(RLE)のメンバーでもあり、本チップに関する論文 paper on the chip のシニア著者である Vivienne Sze は述べています。
この論文には、MIT の大学院生である共同筆頭著者の Zih-Sing Fu と Peter Zhi Xuan Li、および航空宇宙工学教授で LIDS(Laboratory for Information and Decision Systems)の所長を務める Sertac Karaman が名を連ねています。本研究成果は最近、IEEE Very Large-Scale Integrated Circuits Symposium で発表されました。
よりコンパクトなマップ
ロボットにとって、環境内の障害物を含む 3D マップを生成するには通常、多大な電力が必要となります。これは、カメラで捉えた画像を保存し、各画像内のすべての 3D ピクセル(ボクセル)を複数回処理する必要があるためです。
立方体であるボクセル(voxel)を用いて環境を表現するのではなく、MIT の研究者たちは、空間内の障害物をガウシアン・ブラッド(Gaussian blobs)と呼ばれる楕円体の塊でマッピングする手法を採用しました。
これらの楕円体のサイズ、形状、厚さは滑らかに適応可能であるため、剛体で立方体状のボクセルを使用する場合よりも、曲面上の物体の形状に効率的に適合します。
重要なのは、このマップがロボットの周囲の障害物と自由空間を捉えており、これらが組み合わさることでロボットが安全で衝突のない経路を計画できる点です。ボクセルを用いて障害物と自由空間をマッピングする場合、通常は大量のメモリを消費するため、従来の手法は電力を多く必要とします。ガウス関数は幾何形状に柔軟に適応できるため、1 つの細長い楕円体で多くのボクセルが必要となる領域を表すことができ、占有表面と自由空間をはるかにコンパクトに捉えることが可能です。
研究者たちは「Gleanmer」と呼ばれる新しいシステムオンチップにおいて、障害物をガウス関数で表現してロボットの環境の 3D マップを効率的に生成する研究室開発アルゴリズム GMMap を採用しました。
従来のアプローチでは、ロボットは楕円体のサイズと形状を調整するために深度画像を複数回読み込んで処理する必要がありました。システムは通常、画像内のすべてのピクセル同士を比較することでガウス関数を構築します。しかし、これを行うために必要なメモリ量と電力は、多くのエッジデバイスにとって依然として高すぎます。
この問題を解決するため、MIT の研究者たちは、深度画像から 1 回のパスだけで高精度なガウス関数を生成し、その後画像を破棄できる技術を開発しました。これにより、チップが一度に画像全体を保存する必要がなくなります。
各ピクセルを 3D 画像内の他のすべてのピクセルと比較するのではなく、彼らのアルゴリズムは近接するピクセルが同じガウス分布に属すると仮定するため、各ピクセルをその周囲のピクセルのみと比較すれば十分です。
「いつでも必要なメモリに保存するのは数ピクセルだけで済むため、アルゴリズムに必要なメモリの使用量が大幅に削減されます」と李氏は述べています。
共設計(co-design)の活用
しかし、ロボットが空間内を移動する際、通常は同じ物体を異なる視点から捉えることになります。ガウス分布を生成する際、同じ物体を表すため一部のガウス分布が重複してしまいます。これにより、3D マップがエッジデバイスに保存するには大きすぎる可能性があります。
重複したガウス分布を融合させることでマップをよりコンパクトにできますが、通常この処理にはメモリ内に保存された多数の生ピクセルをアルゴリズムが処理する必要があります。研究者たちは、元のピクセルを再訪する必要なく、重複するガウス分布に対して直接この融合プロセスを実行する革新的な技術を開発しました。ガウス分布はピクセルよりもコンパクトであるため、これによりメモリと電力の要件が大幅に削減されます。
同じ原理が彼らのアルゴリズム全体に通じており、ほとんどの計算は元のピクセルではなく、コンパクトなガウス分布に対して直接行われるため、エネルギー効率を実現しています。
研究者たちはこの原理を活用し、現在処理中のガウス分布を演算ユニットのすぐ隣にある小さく高速なオンチップメモリ内に保持するチップを設計しました。これは、ガウスマップが非常にコンパクトであるからこそ可能になったことです。
ロボットが次に作業する必要があるガウシアンは、オンチップメモリユニット内に待機しており、電力消費の大きいオフチップストレージから取得する必要はありません。
「直前の数フレームで見たオブジェクトを保存するための専用メモリを持つことで、データをより効率的にアクセスできます」とフー氏は説明します。
彼らは、このシステム・オン・チップ(SoC)を用いて、多様な既存の 3D 環境を再構築するテストを行いました。また、このチップは、iPhone カメラからストリーミングされる生データから直接、障害物と自由空間も再構築できます。
Gleanmer は約 6 ミリワットの電力消費でリアルタイムに詳細な 3D マップを生成しました。これは、地図作成に使用される既存の最良のチップが必要とする電力のわずか約 2.5 パーセントです。
経路計画中にコンパクトなガウシアンを再利用することで、このチップはロボットが通常必要とするエネルギーの約 20 パーセントのみで安全な軌道を描画することを可能にします。
「アルゴリズムを効率的にすることでメモリ消費を削減し、その効率的なアルゴリズムによって実行される作業量を加速化しました。その結果、当社のチップは可能な限り効率的になっています」と李氏は述べています。
研究者たちは、環境データを収集するセンサーにチップ上の処理ユニットをより近づけることで、さらにエネルギー効率の向上を図る計画です。また、ガウシアンを用いて図面や設計図を表すなど、他の応用分野も探索できる可能性があります。これにより、AI システムが複雑な青写真についてより効率的に推論できるようになるでしょう。
「リアルタイム 3D マッピングは、小型自律システムにとって欠けていたピースでした。パイプラインを検査するドローンや、部屋をナビゲートする AR グラスのペアは、周囲の空間を瞬時に、継続的に、そしてほぼ無電力で理解する必要があります。Gleanmer は、指の間で握れるチップとして、これを初めて可能にします」とカラマン氏は述べています。
この研究は、MIT-MathWorks フェローシップ、Amazon、米国国立科学財団(National Science Foundation)、および Intel によって一部支援されています。
原文を表示
A new chip developed by MIT researchers could help tiny, low-power UAVs avoid obstacles as they zip around tight corners inside an industrial HVAC system to check for gas leaks.
The chip allows small autonomous robots and other battery-limited devices to construct detailed 3D maps of their environments in real-time using only about as much power as a single LED. A robot could use such a map to plan a collision-free path to reach its goal.
Typically, generating such thorough maps requires power-hungry systems and a great deal of memory to build and store 3D representations of the obstacles in a robot’s environment.
The MIT researchers took a different approach by combining an extremely efficient mapping algorithm with specialized hardware designed to accelerate its workload, which minimizes memory and power consumption.
This system-on-a-chip consumes only about 6 milliwatts of power, a fraction of the power required by other systems.
This low-power operation could also make the chip well-suited for lightweight augmented reality headsets that can be worn for extended periods, for applications like educational medical simulation or detailed repair and assembly work.
“This paper showcases a key example of how you can leverage co-design of the algorithm and hardware to really push energy efficiency. While there has been a lot of work looking into compact 3D maps, what stands out about this work is that it also ensures that the process to generate those maps is as efficient as possible. Our chip allows you to store very large maps in a very small space, and do it in a very energy efficient manner,” says Vivienne Sze, a professor in the Department of Electrical Engineering and Computer Science (EECS), a member of the Research Laboratory of Electronics (RLE), and senior author of a paper on the chip.
She is joined on the paper by co-lead authors and MIT graduate students Zih-Sing Fu and Peter Zhi Xuan Li as well as Sertac Karaman, a professor of aeronautics and astronautics and the director of LIDS. The work was recently presented at the IEEE Very Large-Scale Integrated Circuits Symposium.
A more compact map
For a robot, generating a 3D map that includes the obstacles in its environment usually demands a lot of power because it must store images captured by its camera, and process all the 3D pixels in each image multiple times.
Instead of representing the environment using 3D pixels, which are cubes called voxels, the MIT researchers utilized a technique that maps the obstacles in space using ellipsoid blobs called Gaussians.
The size, shape, and thickness of these ellipsoids can be smoothly adapted, so they match the shape of curved objects more efficiently than if one uses rigid, cube-shaped voxels.
Importantly, the map captures the obstacles and free space around the robot, and together these let the robot plan a safe, collision-free path. Mapping obstacles and free space with voxels typically consumes a lot of memory, which makes traditional methods power-hungry. Because Gaussians can flexibly fit the geometry, a single elongated ellipsoid can represent a region that would take many voxels, so occupied surfaces and free space are captured far more compactly.
For their new system-on-a-chip, called Gleanmer, the researchers employed an algorithm their lab developed called GMMap that efficiently generates a 3D map of the robot’s environment using Gaussians to represent obstacles.
With traditional approaches, a robot would need to load and process each depth image several times to adjust the size and shape of the ellipsoids. The system would usually construct Gaussians by comparing all the pixels in an image to each other. But the amount of memory and power needed to do this remains too high for many edge devices.
To solve this problem, the MIT researchers invented a technique that can generate highly accurate Gaussians from depth images with only one pass, after which they can discard the images, so the chip never has to store an entire image at once.
Instead of comparing each pixel to every other pixel in the 3D image, their algorithm assumes that nearby pixels belong in the same Gaussian, so it only needs to compare each pixel to its neighbors.
“At any point in time, we only need to store a few pixels in memory, which significantly reduces the memory footprint our algorithm requires,” Li says.
Leveraging co-design
But as the robot moves through the space, it usually sees the same object from different viewpoints. When it generates Gaussians, some will overlap because they represent the same object. This can make the 3D map too large to store on an edge device.
Fusing overlapping Gaussians makes the map more compact, but doing so typically requires the algorithm to process many raw pixels stored in memory. The researchers developed a novel technique to perform this fusion process directly on overlapping Gaussians, without needing to revisit the original pixels. Since Gaussians are more compact than pixels, this significantly reduces memory and power requirements.
The same principle runs through their algorithm — most computations operate directly on compact Gaussians rather than the original pixels, enabling energy efficiency.
The researchers exploit this principle to design a chip that keeps the Gaussians it is actively working on within small, fast on-chip memory right beside the computational units. This is only possible because the Gaussian map is so compact.
The Gaussians the robot needs to work on next are waiting in the on-chip memory units, so they don’t need to be fetched from more distant, power-hungry, off-chip storage.
“By having a dedicated memory that just stores the objects you’ve seen in the previous few frames, you can access the data much more efficiently,” Fu explains.
They tested the system-on-a-chip by reconstructing a range of diverse, pre-existing 3D environments. The chip can also reconstruct obstacles and free space directly from live data streamed from an iPhone camera.
Gleanmer generated detailed 3D maps in real-time while consuming about 6 milliwatts of power. It required only about 2.5 percent of the power that the best existing chip for map construction would need.
By reusing compact Gaussians along the path as it plans, the chip lets a robot chart a safe trajectory using only about 20 percent of the energy it would otherwise need.
“We reduce the memory consumption by making sure the algorithm is efficient. Then we accelerate the workload that is performed by that efficient algorithm, so in the end, our chip is as efficient as possible,” Li says.
The researchers plan to further improve energy efficiency by moving the processing units on the chip closer to the sensors that gather environmental data. They could also explore additional applications, such as the use of Gaussians to represent schematics. This could help AI systems reason about complex blueprints more efficiently.
“Real-time 3D mapping has been the missing piece for small autonomous systems. A drone inspecting a pipeline or a pair of AR glasses navigating a room both need to understand the space around them — instantly, continuously, and at almost no power cost. Gleanmer makes that possible for the first time in a chip you can hold between your fingers,” says Karaman.
This work is supported, in part, by the MIT-MathWorks Fellowship, Amazon, the U.S. National Science Foundation, and Intel.
関連記事
Mentor PiメカナムホイールをROS 2で動作させる〜macOS上でのシミュレーション環境構築とフロンティアベース探索による検証
ABEJAのインターン生が、メカナムホイール搭載ロボット「Mentor Pi」をROS 2で制御し、macOS上でシミュレーション環境を構築して自律探索を実証した。
Google Home、顔認識精度が向上し離れ向きでも識別可能に
Google は6月23日から、登録された人物の顔認識機能を拡張し、カメラから背を向けても正しく識別できるようにする。これにより、スマートホームカメラによる誤認が減少すると期待される。
NVIDIA XR AI を用いた AR グラスおよび XR デバイス向け AI エージェントの構築
NVIDIA は、クラウドやエッジで動作する GPU 加速 AI サービスと拡張現実デバイスを接続するための再利用可能な基盤「XR AI」を公開ベータ版として提供開始した。このオープンソースライブラリにより、開発者はユーザーの視界を理解し、意図を認識してエンタープライズツールを呼び出す知能型エージェントを構築できるようになる。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み