AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
MIT ML News·2026年6月17日 13:00·約7分で読める

AI が鍵の置き場所を特定できるか?

#Spatiotemporal Memory#Robotics#Computer Vision#Natural Language Processing#MIT SPARK Laboratory
TL;DR

MIT の研究チームは、ロボットが人間のように時間と空間を言語化して記憶・推論できる「時空メモリ」フレームワークを開発し、複雑な環境での自律的なタスク実行を可能にした。

AI深層分析2026年6月17日 14:01
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
5

キーポイント

1

時空メモリフレームワークの確立

ロボットが長期間にわたる環境観察から詳細なメンタルモデルを構築・保持し、過去の出来事(例:「昨夜どこに置いたか」)を正確に記憶できる新技術を導入した。

2

言語ベースの推論能力

従来の地図表現を自然言語で理解可能な形式に変換し、人間との対話を通じて複雑なクエリ(例:「昨夜組み始めた部品を取りに来て」)にリアルタイムで回答可能にした。

3

実用性と速度の両立

既存の最先端手法よりも高い精度を維持しつつ、モバイルロボットが現場で即座に使用できる十分な処理速度を実現している。

4

拡張された応用分野

ロボティクスだけでなく、異常検知支援や経路案内など、拡張現実(AR)システムにおけるメンテナンス作業や通勤支援への応用も期待される。

影響分析・編集コメントを表示

影響分析

この技術は、ロボットが人間と同じ文脈理解を持つことを可能にし、製造業や物流現場における人間とロボットの協働を根本から変革する可能性があります。特に、複雑で動的な環境下での自律的な意思決定能力が向上することで、AI ロボットの導入障壁を下げ、実社会への浸透速度を加速させる重要な転換点となります。

編集コメント

「ChatGPT のような言語能力を、物理世界に根付かせた」という表現が象徴するように、この研究は AI が仮想空間から実世界へ完全に適応するための決定的なステップと言えます。

工場の作業員は、前夜に部品を組み立て始めた保管場所を記憶しており、その場所に素早く戻って部品を取り出すことができます。しかし、彼女と並んで働く可能性のあるロボットが、同じ種類の「時空間」メモリを開発してアクセスするのは困難です。

現在、MIT の研究者たちは、ロボットが複雑で大規模な環境の詳細なメンタルモデルを迅速に形成し、呼び出せる長期記憶フレームワークを開発しました。

将来、この進展により、作業員はロボットアシスタントに「昨夜組み立て始めた部品を取りに行って」と指示するだけで、そのアイテムを取得させることができるようになります。

この新しい手法は、高度な地図表現と、ロボットが長期間にわたって移動しながら収集した環境の詳細な記述を組み合わせるものです。ロボットはこのメモリを迅速にアクセスし、自然言語で複雑な環境に関する質問に答えることができます。

この記憶フレームワークは、最先端の手法よりも正確に質問に応え、モバイルロボットがリアルタイムで使用できるほど高速です。

ロボティクスにおける潜在的な用途に加え、この方法は異常検出を支援するメンテナンス作業員や、道案内を支援する通勤者を補助する拡張現実システムにも応用可能です。

「ロボットが人間と並んで働き、より良く相互作用するためには、同じ言語を話す必要があります。ロボットは時間や空間について人間と同じように推論できるものでなければなりません。まさに私たちの手法が実現しようとしているのはこれです。従来の地図を、ロボットが言語を使って思考しアクセスしやすい言語ベースの地図に変換するのです」と、MIT航空宇宙工学科(AeroAstro)准教授であり、情報意思決定システム研究所(LIDS)の主任研究者、かつ MIT SPARK 実験室の所長であるルカ・カルーネ氏は述べています。

この論文には、主著者として MIT の大学院生ニコラス・ゴロ氏と、元 MIT 研究科学者で現在はドイツのニュルンベルク工科大学教授であるルカス・シュミット氏が共著者として名を連ねています。本研究は最近、コンピュータビジョンとパターン認識会議(CVPR)で発表されました。

時空間記憶

記憶機能により、チャットボットのような人工知能システムは複雑な質問に答えることができ、ユーザーとの過去のやり取りについて推論することが可能になります。

「私たちは、AI を搭載したロボットが実際の相互作用やセンサー観測を記憶できるようにする新しいタイプの記憶、すなわち時空間記憶(spatiotemporal memory)を設計したいと考えています。ChatGPT のようなものですが、現実世界に根ざしており、『財布をどこに置いたっけ?』といった環境に関するあらゆる質問に答えることができるものです」とカルーネ氏は言います。

そのような記憶フレームワークを開発するために、MIT の研究者たちは2つの研究分野を結びつけました:コンピュータビジョンとロボティックマッピングです。

マルチモーダルコンピュータビジョンモデルは、シーン内のオブジェクトを理解し、豊かに記述することができますが、通常は一度に1つの注釈しか処理できません。一方、ロボティックマッピングフレームワークは、アパート全体や大学キャンパスのような環境の3Dマップを作成しますが、オブジェクトの詳細な説明が欠けていたり、計算コストが高かったりするのが一般的です。

MIT の研究者たちが開発した「Describe Anything, Anywhere, Anytime, at Any Moment (DAAAM)」という手法は、両方のアプローチの良い点を組み合わせたものです。

DAAAM を使用すると、ロボットが環境を移動する際に、目にするオブジェクトに豊富な記述を付与します。例えば、ロボットは MIT キャンパスにある特定の建物が「Stata Center」と呼ばれ、ある種の建築様式で設計されていること、あるいは自転車置き場に5台の自転車が置かれており、赤い1台がパンクしていることを記録するかもしれません。

この詳細な情報は、空間的に配置された3Dマップベースの表現形式に保存され、オブジェクトは別々の領域にグループ化されます。これにより、ロボットは「パンクした赤い自転車は Stata Center 外の自転車置き場にある」という情報を記憶できます。

しかし、このような豊富な記述を捉える既存の技術では、数個のオブジェクトに注釈をつけるのに数秒かかることが多く、これはリアルタイム性能には遅すぎます。なぜなら、ロボットが数分間の探索中に数百個のオブジェクトを目にする可能性があるからです。

「ロボットがこの空間記憶を形成する速度が速ければ、環境内での動作実行の効率はより高くなります」とカルローネは付け加えます。

プロセスの効率化

処理を加速させるため、DAAAM は移動中に近接するオブジェクトを集約し、注釈付きキーフレームを選択するための最適化手法を使用します。これらは複数のオブジェクトを最も明確に捉えた画像であり、システムが並列して複数のアイテムを詳細に記述することを可能にし、計算速度を 10 倍に向上させます。

ロボットが空間を探検する際、各バッチの注釈は 3D マップ上の特定の場所にある複数のオブジェクトに紐付けられます。

「私たちは各オブジェクトを一度だけ注釈付けるため、このフレームワークは非常に大規模な環境でもリアルタイムで動作できます。また、オブジェクトを領域ごとにクラスタリングすることで、環境内のオブジェクトや場所に関する広範な問い合わせに対応可能です」とゴルロは説明します。

システムがこの空間記憶を構築した後、膨大な数のオブジェクトと記述からなるデータベースから情報を効率的に検索する必要があります。

これを実現するために、研究者たちはさまざまなツールを呼び出す LLM(大規模言語モデル)を使用しました。このアプローチにより、ハルシネーション(幻覚的生成)を低減しつつ特定の情報を迅速に取得することが可能となり、DAAAM はユーザーの問い合わせに対して数秒で正確な回答を提供できるようになります。

例えば、あるロボットに MIT キャンパスの建物の近くにある特定の彫刻について尋ねた場合、DAAAM は「彫刻」という単語に基づいて情報を取得するための意味検索ツールや、建物の位置に基づいて情報を取得するための別のツールを使用できます。

他の手法と比較してテストされた結果、質問の種類によっては DAAAM の精度が 21 パーセントから 53 パーセント高いことが示されました。

将来、研究者たちは DAAAM を拡張し、環境内で起こった重要な出来事をシステムが捉えられるようにしたいと考えています。また、システムの回答に信頼度レベルを組み込むための取り組みも進めています。

「究極的には、あらゆる種類のタスクを支援できるロボットを実現したいのです。このフレームワークを通じて、あなたが何を求めても対応できる一般化されたエージェントの基盤を作ろうとしています」と Gorlo は述べています。

本研究は一部、米国陸軍研究研究所および海軍研究局によって資金提供されました。Carlone 氏は現在アマゾン・シュラーとして休暇中ですが、この記事で記述されているのは MIT で実施された仕事であり、アマゾンとは関連しません。

原文を表示

An auto factory worker can remember the storage bin where she left a partly assembled component the night before, and quickly return to that spot to pick it up. But robots that may work side-by-side with her would struggle to develop and access this same type of “spatiotemporal” memory.

Now, MIT researchers have developed a long-term memory framework that allows robots to rapidly form and recall a detailed mental model of complicated, large-scale environments.

In the future, this advance could allow the factory worker to send a robotic assistant to fetch the item, simply by asking it to “go and grab the component we started assembling last night.”

This new method combines advanced map representations with rich descriptions of the environment that the robot gathers as it travels over a long period of time. The robot can quickly access this memory to answer complex queries about its environment in plain language.

This memory framework, which answers questions more accurately than state-of-the-art methods, runs fast enough for a mobile robot to use in real-time.

In addition to its potential uses in robotics, this method could have applications in augmented reality systems that aid maintenance workers in anomaly detection or assist commuters in wayfinding.

“If we want robots to work side-by-side with humans and interact better with humans, they must speak the same language. The robot must be able to reason about time and space the same way humans do. That is essentially what our method is doing. It is turning a traditional map into a language-based map that is easier for the robot to think about and access using language,” says Luca Carlone, an associate professor in MIT’s Department of Aeronautics and Astronautics (AeroAstro), principal investigator in the Laboratory for Information and Decision Systems (LIDS), and director of the MIT SPARK Laboratory.

He is joined on the paper by lead author Nicolas Gorlo, an MIT graduate student; and Lukas Schmid, a former research scientist at MIT and now professor at the University of Technology Nuremberg in Germany. The research was recently presented at the Conference on Computer Vision and Pattern Recognition (CVPR).

Spatiotemporal memory

Memory allows an artificial intelligence system, like a chatbot, to answer complex questions and reason about previous interactions with its user.

“We want to design a new type of memory, a spatiotemporal memory, that enables an AI-powered robot to remember real interactions and sensor observations. Like ChatGPT, but grounded in the real world and capable of answering any question about the environment, like ‘Where did I leave my wallet?’” Carlone says.

To develop such a memory framework, the MIT researchers bridged two lines of work: computer vision and robotic mapping.

Multimodal computer vision models can understand and richly describe the objects in a scene, but they often only process a single annotation at a time. On the other hand, robotic mapping frameworks create 3D maps of an environment, like an entire apartment or university campus, but usually lack detailed descriptions of objects or are computationally expensive.

The method the MIT researchers created, called Describe Anything, Anywhere, Anytime, at Any Moment (DAAAM), takes the best of both approaches.

Using DAAAM, as a robot traverses its environment, it attaches rich descriptions to objects it sees. For instance, the robot may note that a particular building on the MIT campus is called the Stata Center and is designed with a certain type of architecture, or that a bike rack holds five bicycles and the red one has a flat tire.

It stores this detailed information in a 3D map-based representation that is arranged spatially, so objects will be grouped into separate regions. In this way, the robot can remember that the red bicycle with the flat tire is in the bike rack outside the Stata Center.

But existing techniques that capture such rich descriptions typically take a few seconds to annotate a few objects. This is too slow for real-time performance, since a robot might see hundreds of objects during a few minutes of exploration.

“The faster the robot can form this spatial memory, the more efficient it will be performing actions in the environment,” Carlone adds.

Streamlining the process

To speed things up, DAAAM aggregates nearby objects as it travels and uses an optimization method to select key frames to annotate. These are images with the clearest view of multiple objects, allowing the system to thoroughly describe several items in parallel, speeding up computation tenfold.

As the robot explores the space, it attaches each batch of annotations to multiple objects in a particular location on the 3D map.

“We annotate every object only once, so our framework can run in very large-scale environments in real time. And by clustering objects into regions, it can answer a wide range of queries about objects and locations in the environment,” Gorlo explains.

Once the system builds this spatial memory, it must retrieve information from an enormous database of objects and descriptions in an efficient manner.

To enable this, the researchers used an LLM that calls on various tools, which can quickly retrieve specific information in a way that reduces hallucinations. This allows DAAAM to answer a user query accurately in only a few seconds.

For instance, if one asks a robot about a certain sculpture it saw near an MIT campus building, DAAAM can use a semantic search tool to retrieve information based on the word “sculpture” or a different tool to retrieve information based on the location of the building.

When tested and compared with other methods, DAAAM was between 21 percent and 53 percent more accurate, depending on the question type.

In the future, the researchers want to expand DAAAM so the system can capture significant events that happened in the environment. They are also working to incorporate confidence levels into the system’s responses.

“Ultimately, we want to have robots that can help with any sort of tasks. With this framework, we are trying to create the foundations to enable a generalist agent that can do anything you ask,” Gorlo says.

This research was funded, in part, by the U.S. Army Research Laboratory and the Office of Naval Research. Carlone is currently on sabbatical as an Amazon Scholar; this article describes work performed at MIT and is not associated with Amazon.

この記事をシェア

関連記事

Ars Technica AI★42026年6月5日 07:23

インターネット上で話題となっている人型ロボットへの懐疑論者のガイド

テック企業が披露する人型ロボットのアクロバットや家事の実演は、実世界での信頼性のある反復作業にはまだ大きな隔たりがあることを示している。

AI News★42026年6月19日 00:57

コンピュータビジョンの導入が小売業の生産性向上を牽引

オペレーターが物理的な棚の追跡を自動化することで、利益率の低下を防ぎ、業界全体で数十億ドル規模のコスト削減を実現している。Coresight Researchと技術プロバイダーのSimbe、RELEX Solutionsによる調査がその効果を算出している。

Ars Technica AI★42026年6月18日 04:25

AI コーディングエージェントがロボットに GPU 取り付けやジップタイ切断を教示

Ars Technica は、計算リソースとトークン予算を与えられた AI コーディングエージェントが、自律的にロボットアームの訓練プログラムを策定し、GPU の挿入やジップタイの切断といった物理作業を習得した事例を紹介している。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む