LLM がロボットに曖昧な指示の理解と重要詳細への集中を支援
MIT CSAIL は大規模言語モデル(LLM)を活用した「Masked IRL」手法を開発し、人間のわずかな指示と少量のデモデータだけでロボットが曖昧な命令を理解し、重要な詳細を推論して安全に動作する能力を実現した。
キーポイント
LLM を活用した指示の自動補完
ユーザーの曖昧なプロンプトと収集されたデモデータを基に、LLM が詳細を自動的に拡張・解釈する仕組みを採用している。
データ効率の劇的向上
従来の手法と比較して、必要な物理的なデモンストレーションデータを約 5 分の 1 に削減し、人間の学習負担を大幅に軽減した。
文脈に応じた安全な動作計画
もう一つの LLM が、タスク実行において人間が明言していない重要な詳細(例:会議中のラップトップへの接近回避)を特定し、ロボットの運動計画に組み込む。
キネステティックデモの活用
人間がロボットを物理的に動かして教える「キネステティックデモンストレーション」から得た軌道データをセンサー情報と照合し、学習効率を高めている。
影響分析・編集コメントを表示
影響分析
この技術は、ロボットのプログラミングや学習におけるボトルネックであった「大量のデモデータ収集」と「厳密な指示記述」の課題を解決し、実社会でのロボット普及を加速させる可能性を秘めています。特に、複雑で動的な環境下でも人間が直感的に指示できるため、サービスロボットや産業用ロボットの現場適用範囲が劇的に拡大すると予想されます。
編集コメント
LLM の推論能力をロボットの制御ループに組み込むことで、従来の「指示待ち」から「文脈理解型」へのパラダイムシフトを示唆する重要な研究です。
近い将来、倉庫やオフィスで働いていると想像してみてください。新しい研修生に仕事の基礎を教えるよう頼まれますが、その研修生はロボットです。彼らを教えるには、「見せて説明する」ゲームを行うかもしれません。つまり、何かのやり方を物理的に数回示しながら、同時に自分が何をしているかを説明することです。
例えば、Zoom 通話中に邪魔にならないように、机の上にコーヒーを置いてほしいとロボットに頼んだとしましょう。ロボットがあなたやラップトップに近すぎず、会議を中断しないことを望むでしょう。この動作を実現するには、ロボットはタスク全体を明確に示すデータで訓練される必要があります。コンピュータ科学者たちは、多くの物理的なデモンストレーションを記録したり、広範な指示を書いたりすることで、ロボットに操作タスクを説明しようと試みてきました。しかし、その両方が揃っていない場合、機械が何をすべきかを誤解する可能性が高いです。
人間がすべてを教え示すのは手間がかかるため、MIT のコンピュータサイエンスおよび人工知能研究所(CSAIL)の研究者たちは、ロボットへの教育プロセスを自動化し、指示を自動的に明確化するとともに、デモンストレーションデータを約 5 分の 1 に抑えることに成功しました。彼らの「マスクド逆強化学習」(Masked Inverse Reinforcement Learning: Masked IRL)アプローチでは、ユーザーのデモから収集されたデータに基づいて曖昧なプロンプトを大規模言語モデル(LLM: Large Language Model)が補完します。別の LLM は、アルゴリズムが運動計画に組み込むべき詳細を絞り込み、ロボットが家庭、オフィス、工場などで安全に家事や作業を完了できるようにします。
「人間のロボットとの相互作用において、タスクの詳細をすべて説明したくない場合でも、私たちのアプローチは役に立つでしょう」と、このプロジェクトを紹介する論文の主要著者であり、MIT の博士課程学生かつ CSAIL 研究者であるミンヨン・ファン(Minyoung Hwang)氏は述べています。「私たちは、機械がユーザーが本当に何を望んでいるのかを理解できるようにすることで、人間の労力を最小限に抑えています」。
ファン氏によると、Masked IRL は、人間がプロンプトで記述しないかもしれないが、 nonetheless 極めて重要な要素が存在する環境において、ロボットが安全に操縦することを支援できます。例えば、キッチンからお菓子を掴んで持ってくる機械は、あなたのラップトップにぶつからないようにする必要があることを知らないかもしれません。同様に、工場内のロボットが異なる箱に物品を配置する際には、棚の周りを慎重に移動する必要があります。
これらの状況で新しいタスクを学習するために、Masked IRL はロボットのセンサーを使用して周囲の情報を読み取ります。これらのコンポーネントはまた、キネステティック・デモンストレーション(人間がロボットを物理的に動かして特定の動作を行わせるトレーニング手法)における各動きも記録します。これはまるで機械の理学療法士のように、関節を特定の方向に曲げて、ロボットが物体をつかみ、移動させ、置く方法を教えるようなものです。
MIT のシステムは次に、LLM(大規模言語モデル)を呼び出して、この一連の動き(軌道と呼ばれる)を最短経路と比較します。また、プロンプト内で不明瞭な点について補足し、「近くにいる」という要求を「テーブルの表面に近い位置に留まる」ように具体化します。軌道の比較と明確化された指示を用いて、LLM はトレーニングされた動きがなぜタスクにとって重要なのかを理解し始めます。
次に、2 つ目の LLM が障害物の位置やロボットの目標物体の形状など、環境の詳細を評価します。このプロセスにおいて、LLM は「マスク」処理(つまり、現在のタスクに関連ないと判断した要素を無視)を行い、各要素を「1」(重要)または「0」(あまり重要ではない)としてスコアリングします。例えば、デモンストレーション中にユーザーがテーブルにもたれかかっていたかどうかは「0」となり、無関係な情報となります。「1」とみなされた詳細は、アルゴリズムによって最終的なアクションプランに組み込まれます。
これらのマスクは、ロボットに優先すべき情報を教えることで、3D デモおよび実世界デモの両において、Masked IRL に同等のベースラインに対する決定的な優位性をもたらしました。研究者たちのシステムのおかげで、仮想ロボットと実世界のロボット双方が、コーヒーカップをラップトップの周りに移動させてテーブル上の異なる場所に置くなど、障害物の周りを巧みに物体を操作できるようになりました。これらのタスクにおいて、Masked IRL は、プロンプトに明示的に記述されていなかったユーザーの嗜好を、同等のベースラインよりも最大 15 パーセント多く正しく特定しました。
シミュレーション実験において、CSAIL の研究者たちはまた、Masked IRL が高速な学習者であることを発見しました。カップを移動する方法を理解するために必要なデモ数は、ベースラインよりも少なくて済みました。さらに、機械が曖昧な要求に従おうとするのではなく、LLM(大規模言語モデル)が指示を明確にした場合に、ロボットのパフォーマンスが向上することも発見しました。
このより焦点を絞ったアプローチは、実世界のロボットアームにもよく適合し、学習フェーズでシステムが遭遇したことがないプロンプトを実行することができました。50 回の触覚的デモ(kinesthetic demonstrations)のトレーニング後に、ロボットは人間の前にカップを慎重に移動させながら、ユーザーのコンピュータとの衝突を回避しました。これは、「離れていて」というより一般的な要求を詳細化することで学習した回避すべき障害物です。また、テーブルに対して「近くにいる」ようにしながらテーブルを拭き、人間とテーブルの両方から「離れている」ようにしながらユーザーにチップの袋を手渡すこともできました。
マスクされた IRL は、ユーザーが残した言外の意味を感知し説明しますが、近い将来にはそれを「見る」ことも可能になるでしょう。CSAIL の研究者たちは、カメラを搭載してアプローチをより動的なものにする計画を立てており、これによりロボットが周囲の画像を撮影できるようになります。そうすれば、特定の要素にハイライトをつけ、焦点を合わせることが可能になります。例えば、おもちゃを拾うよう指示された場合、近くにあるバナナを見てそれらを無視し、対象となる物体を扱うでしょう。
この論文は、Hwang 氏と CSAIL の3人の同僚との共著です。共著者には、博士課程学生のアレクサンドラ・フォーシー=スメレック('20, SM '22)、ポスドクのネイサンエル・デンラー、そして航空宇宙工学科および CSAIL に所属する MIT 准教授のアンデレア・ボブが含まれます。この研究は、タタグループによる MIT 生成 AI インパクトコンソーシアム賞の一部と、米国国防総省によって支援されました。彼らは今年6月に開催される IEEE ロボティクス&オートメーション国際会議(2026)で本プロジェクトを発表する予定です。
原文を表示
Imagine working at a warehouse or office sometime in the near future, and you’re asked to help a new trainee learn the basics of their job. The catch: It’s a robot. To teach them, you might want to play a game of “show and tell” — that is, physically showing how to do something a few different ways, while also explaining what you’re doing.
Let’s say you asked the robot to place some coffee on your desk without disturbing you during a Zoom call. You’ll prefer that the robot doesn’t get too close to you and the laptop so that it doesn’t interrupt your meeting. To enable this behavior, the robot should be trained with data that clearly demonstrates the full task. Computer scientists have attempted to explain manipulation tasks to robots by recording lots of physical demonstrations or writing extensive directions. But if you don’t have both, the machine is likely to misunderstand what it needs to do.
It’s laborious for humans to do all that showing and telling, so researchers at MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL) have automated the process of teaching a robot, while clarifying instructions automatically and using nearly five times less demonstration data. Their “Masked Inverse Reinforcement Learning” (Masked IRL) approach uses a large language model (LLM) to elaborate on ambiguous prompts based on the data collected from a user’s demo. Another LLM then narrows down which details an algorithm should incorporate into a motion plan, so that a robot can safely complete chores in homes, offices, and factories.
“Our approach could come in handy when a human interacts with a robot but doesn’t want to spell out all the details of a task,” says MIT PhD student and CSAIL researcher Minyoung Hwang, who is a lead author on a paper presenting the project. “We’re minimizing human effort by enabling machines to get to the bottom of what users really want.”
According to Hwang, Masked IRL can help robots safely maneuver in settings where there are elements a human might not describe in a prompt, but that are crucial nonetheless. For example, a machine grabbing you a snack from the kitchen may not know to avoid bumping into your laptop. Likewise, a factory robot placing items into different boxes must carefully navigate around shelves.
To learn new tasks in these situations, Masked IRL uses the robot’s sensors to capture information about its surroundings. These components also log each movement of a kinesthetic demonstration — a training approach where a human physically moves a robot to do a specific action. It’s sort of like being the machine’s physical therapist, bending joints in a particular direction to show a robot how to grab, move, and place objects.
MIT’s system then calls on an LLM to compare this sequence of motions (called a trajectory) to the shortest possible path. The model also elaborates on what might be unclear in a prompt, turning a request like “stay close” into “stay close to the surface of the table.” Using the trajectory comparison and clarified directions, the LLM begins to understand why the motions it was trained on are important to the task.
A second LLM then evaluates details of the environment, such as the position of obstacles and the shape of the robot’s target object. During this process, it “masks” (in other words, ignores) the elements it deems irrelevant to the task at hand, scoring each one as either a “1” (important) or “0” (not so much). For example, whether or not a user was leaning on a table during a demonstration would be a “0,” making it irrelevant. Any detail considered a “1” is incorporated into the final action plan by an algorithm.
These masks gave Masked IRL a key advantage over comparable baselines in both 3D and real-world demos because it taught a robot which information to prioritize. Thanks to the researchers’ system, virtual and real robots alike were able to skillfully maneuver objects around obstacles, such as moving a coffee mug around a laptop to different spots on a table. In these tasks, Masked IRL correctly identified users’ preferences, which they didn’t explicitly state in their prompts, up to 15 percent more often than comparable baselines.
During simulation experiments, CSAIL researchers also found that Masked IRL was a fast learner. It required fewer demos to understand how to move the mug than its baselines. They also found that the robots performed better when an LLM cleared up instructions, instead of having the machine try to follow a vague request.
This more focused approach also translated well to a real robotic arm, executing prompts the system hadn’t seen during its training phase. After being trained on 50 kinesthetic demonstrations, the robot carefully moved a cup toward a human while avoiding colliding with a user’s computer — an obstacle it learned to avoid by elaborating on a more general request to “stay away.” It also wiped a table down while “staying close” to it, and handed a user a bag of chips while “staying away” from both a human and a table.
Masked IRL senses and explains what users leave unsaid, but soon, it might “see” it too. CSAIL researchers plan to make their approach more dynamic by equipping it with cameras, allowing a robot to take images of its surroundings. Then it could highlight and focus on specific elements nearby. For example, if you asked the machine to pick up a toy, it might see some bananas nearby and ignore them before handling its target object.
Hwang wrote the paper with three CSAIL colleagues: PhD student Alexandra Forsey-Smerek ’20, SM ’22; postdoc Nathaniel Dennler; and MIT Assistant Professor Andreea Bobu, who is a member of the Department of Aeronautics and Astronautics and CSAIL. Their work was supported, in part, by the Tata Group via the MIT Generative AI Impact Consortium Award, and the Department of Defense. They’ll present the project at the 2026 IEEE International Conference on Robotics and Automation in June.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み