Could AI tell you where you left your keys?｜AI が鍵の置き場所を特定できるか？ | AIニュース最前線

工場の作業員は、前夜に部品を組み立て始めた保管場所を記憶しており、その場所に素早く戻って部品を取り出すことができます。しかし、彼女と並んで働く可能性のあるロボットが、同じ種類の「時空間」メモリを開発してアクセスするのは困難です。 現在、MIT の研究者たちは、ロボットが複雑で大規模な環境の詳細なメンタルモデルを迅速に形成し、呼び出せる長期記憶フレームワークを開発しました。 将来、この進展により、作業員はロボットアシスタントに「昨夜組み立て始めた部品を取りに行って」と指示するだけで、そのアイテムを取得させることができるようになります。 この新しい手法は、高度な地図表現と、ロボットが長期間にわたって移動しながら収集した環境の詳細な記述を組み合わせるものです。ロボットはこのメモリを迅速にアクセスし、自然言語で複雑な環境に関する質問に答えることができます。 この記憶フレームワークは、最先端の手法よりも正確に質問に応え、モバイルロボットがリアルタイムで使用できるほど高速です。 ロボティクスにおける潜在的な用途に加え、この方法は異常検出を支援するメンテナンス作業員や、道案内を支援する通勤者を補助する拡張現実システムにも応用可能です。 「ロボットが人間と並んで働き、より良く相互作用するためには、同じ言語を話す必要があります。ロボットは時間や空間について人間と同じように推論できるものでなければなりません。まさに私たちの手法が実現しようとしているのはこれです。従来の地図を、ロボットが言語を使って思考しアクセスしやすい言語ベースの地図に変換するのです」と、MIT航空宇宙工学科（AeroAstro）准教授であり、情報意思決定システム研究所（LIDS）の主任研究者、かつ MIT SPARK 実験室の所長であるルカ・カルーネ氏は述べています。 この論文には、主著者として MIT の大学院生ニコラス・ゴロ氏と、元 MIT 研究科学者で現在はドイツのニュルンベルク工科大学教授であるルカス・シュミット氏が共著者として名を連ねています。本研究は最近、コンピュータビジョンとパターン認識会議（CVPR）で発表されました。 **時空間記憶** 記憶機能により、チャットボットのような人工知能システムは複雑な質問に答えることができ、ユーザーとの過去のやり取りについて推論することが可能になります。 「私たちは、AI を搭載したロボットが実際の相互作用やセンサー観測を記憶できるようにする新しいタイプの記憶、すなわち時空間記憶（spatiotemporal memory）を設計したいと考えています。ChatGPT のようなものですが、現実世界に根ざしており、『財布をどこに置いたっけ？』といった環境に関するあらゆる質問に答えることができるものです」とカルーネ氏は言います。 そのような記憶フレームワークを開発するために、MIT の研究者たちは2つの研究分野を結びつけました：コンピュータビジョンとロボティックマッピングです。 マルチモーダルコンピュータビジョンモデルは、シーン内のオブジェクトを理解し、豊かに記述することができますが、通常は一度に1つの注釈しか処理できません。一方、ロボティックマッピングフレームワークは、アパート全体や大学キャンパスのような環境の3Dマップを作成しますが、オブジェクトの詳細な説明が欠けていたり、計算コストが高かったりするのが一般的です。 MIT の研究者たちが開発した「Describe Anything, Anywhere, Anytime, at Any Moment (DAAAM)」という手法は、両方のアプローチの良い点を組み合わせたものです。 DAAAM を使用すると、ロボットが環境を移動する際に、目にするオブジェクトに豊富な記述を付与します。例えば、ロボットは MIT キャンパスにある特定の建物が「Stata Center」と呼ばれ、ある種の建築様式で設計されていること、あるいは自転車置き場に5台の自転車が置かれており、赤い1台がパンクしていることを記録するかもしれません。 この詳細な情報は、空間的に配置された3Dマップベースの表現形式に保存され、オブジェクトは別々の領域にグループ化されます。これにより、ロボットは「パンクした赤い自転車は Stata Center 外の自転車置き場にある」という情報を記憶できます。 しかし、このような豊富な記述を捉える既存の技術では、数個のオブジェクトに注釈をつけるのに数秒かかることが多く、これはリアルタイム性能には遅すぎます。なぜなら、ロボットが数分間の探索中に数百個のオブジェクトを目にする可能性があるからです。 「ロボットがこの空間記憶を形成する速度が速ければ、環境内での動作実行の効率はより高くなります」とカルローネは付け加えます。 **プロセスの効率化** 処理を加速させるため、DAAAM は移動中に近接するオブジェクトを集約し、注釈付きキーフレームを選択するための最適化手法を使用します。これらは複数のオブジェクトを最も明確に捉えた画像であり、システムが並列して複数のアイテムを詳細に記述することを可能にし、計算速度を 10 倍に向上させます。 ロボットが空間を探検する際、各バッチの注釈は 3D マップ上の特定の場所にある複数のオブジェクトに紐付けられます。 「私たちは各オブジェクトを一度だけ注釈付けるため、このフレームワークは非常に大規模な環境でもリアルタイムで動作できます。また、オブジェクトを領域ごとにクラスタリングすることで、環境内のオブジェクトや場所に関する広範な問い合わせに対応可能です」とゴルロは説明します。 システムがこの空間記憶を構築した後、膨大な数のオブジェクトと記述からなるデータベースから情報を効率的に検索する必要があります。 これを実現するために、研究者たちはさまざまなツールを呼び出す LLM（大規模言語モデル）を使用しました。このアプローチにより、ハルシネーション（幻覚的生成）を低減しつつ特定の情報を迅速に取得することが可能となり、DAAAM はユーザーの問い合わせに対して数秒で正確な回答を提供できるようになります。 例えば、あるロボットに MIT キャンパスの建物の近くにある特定の彫刻について尋ねた場合、DAAAM は「彫刻」という単語に基づいて情報を取得するための意味検索ツールや、建物の位置に基づいて情報を取得するための別のツールを使用できます。 他の手法と比較してテストされた結果、質問の種類によっては DAAAM の精度が 21 パーセントから 53 パーセント高いことが示されました。 将来、研究者たちは DAAAM を拡張し、環境内で起こった重要な出来事をシステムが捉えられるようにしたいと考えています。また、システムの回答に信頼度レベルを組み込むための取り組みも進めています。 「究極的には、あらゆる種類のタスクを支援できるロボットを実現したいのです。このフレームワークを通じて、あなたが何を求めても対応できる一般化されたエージェントの基盤を作ろうとしています」と Gorlo は述べています。 本研究は一部、米国陸軍研究研究所および海軍研究局によって資金提供されました。Carlone 氏は現在アマゾン・シュラーとして休暇中ですが、この記事で記述されているのは MIT で実施された仕事であり、アマゾンとは関連しません。

AI が鍵の置き場所を特定できるか？

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト