#vision-language-action のAIニュース

3件の記事

Qwen ロボットスイートの紹介：VLA 操作、動画世界モデル、ナビゲーションの 3 つの身体型 AI モデル

Qwen チームは、Qwen3.5-4B を基盤とする操作モデル「Qwen-RobotManip」、60 レイヤーの MMDiT を備えた動画世界モデル「Qwen-RobotWorld」、および Qwen3-VL に基づくナビゲーションモデル「Qwen-RobotNav」からなる 3 つの身体型 AI モデルをリリースした。

MarkTechPost·6月17日·★★★★

想像に預けられ、行動のために微調整：ワールド・アクションモデルの台頭

NVIDIA は、事前学習されたビジョン言語モデルを基盤とし、ロボット制御に適応させた「ワールド・アクションモデル（WAM）」という新しい技術の登場を発表した。これは、視覚と言語を理解する能力を行動計画に転用するアプローチである。

NVIDIA Developer Blog·6月15日·★★★★

ヘルスケアロボティクスにおける物理的AIの台頭

研究者らが、医療現場でのロボット操作を向上させる物理的AIシステムを開発し、手術支援や患者ケアへの応用を目指している。

Hugging Face Blog·3月17日·★★★★