ビジョン言語モデルを用いたデータアノテーションの拡張による物理AIシステムの強化
Bedrock RoboticsはAWSと連携し、建設現場の映像を分析・ラベル生成するビジョン言語モデルを活用し、物理AIシステムのデータアノテーション効率を向上させています。
キーポイント
建設・製造業の深刻な労働力不足を自律システムで解決する動きが加速
自律システム開発のボトルネックである大規模データアノテーションをVLMで効率化
Bedrock Roboticsの事例でVLMによる建設映像の自動ラベリング実証
AWSと連携した実践的ソリューションで産業用AIの実用化を推進
影響分析・編集コメントを表示
影響分析
この記事は、産業用AIシステムの実用化における最大の課題であるデータ準備を、VLM技術で効率化する具体的なアプローチを示している。特に建設業界の労働力不足という社会課題とAI技術の実装を結びつけ、実ビジネスでの応用可能性を明確にしている点で意義が大きい。
編集コメント
AI技術の実用化においてデータ準備の壁をどう乗り越えるか、具体的な企業事例を通じて示した良質なケーススタディ。産業界の課題解決に直結するAI応用として注目すべき内容。
ビジョン・ランゲージモデルを用いたデータ注釈のスケーリングにより、物理 AI システムを強化する
製造業、物流、建設、農業の成長を制約しているのは、深刻な労働力不足です。この問題は特に建設業界で顕著であり、米国では約 50 万の職が未充足状態にあり、現在の労働力の 40% が今後 10 年以内に定年を迎える見込みです。これらの労働力の制約は、プロジェクトの遅延、コストの上昇、開発計画の先送りという結果を招いています。これらの課題に対処するため、組織では、容量ギャップを埋め、運用能力を拡張し、さらに 24 時間稼働による生産性向上という付加価値を提供できる自律型システムの開発を進めています。
自律システムの構築には、AI モデルを訓練するための大規模な注釈付きデータセットが必要です。効果的な訓練こそが、これらのシステムがビジネス価値を発揮するかどうかを決定づけます。ボトルネックは、データ準備にかかる高コストです。特に重要なのは、ビデオデータのラベル付けを行うことです。これは、設備、タスク、環境に関する情報を特定し、モデル訓練に有用なデータを確保するために不可欠なステップです。この工程はモデルの展開を妨げ、AI 搭載製品やサービスの顧客への提供を遅らせる原因となります。数百万時間のビデオを管理する建設会社にとって、手動によるデータ準備と注釈付けは現実的ではありません。ビジョン・ランゲージ・モデル(VLMs)は、画像やビデオを解釈し、自然言語のクエリに応答し、人手では到底及ばない速度と規模で記述を生成することで、この課題に対処します。これにより、コスト効果の高い代替手段が提供されます。
本稿では、Bedrock Robotics がどのようにこの課題に取り組んでいるかを検証します。AWS Physical AI Fellowship に参加した同スタートアップは、AWS 生成 AI イノベーションセンターと連携し、建設現場のビデオ映像を分析し、運用詳細を抽出し、自律型建設機械のためのデータ準備を改善するために大規模な注釈付き訓練データセットを生成するビジョン・ランゲージ・モデルを適用しました。
Bedrock Robotics: 自律型建設の加速における事例研究
2024 年以来、Bedrock Robotics は建設機械向けの自律型システムの開発を進めています。同社の製品「Bedrock Operator」は、ハードウェアと AI モデルを組み合わせるリトロフィットソリューションであり、ショベルカーやその他の重機が最小限の人間介入で稼働できるようにします。これらのシステムは、掘削、整地、資材搬送などのタスクをセンチメートルレベルの精度で実行可能です。これらのモデルを訓練するには、機械、タスク、および周囲の環境を捉えた大量の映像データを必要としますが、これは非常にリソース集約的なプロセスであり、スケーラビリティに制限をもたらします。
VLM(Vision-Language Model)は、この画像や動画データを分析してテキスト記述を生成することで解決策を提供します。これにより、視覚パターンと人間言語の関連付け方をモデルに教えるための注釈タスクに特に適しており、その役割は極めて重要です。Bedrock Robotics はこの技術を活用して AI モデル訓練のためのデータ準備プロセスを合理化し、機械の自律運用を実現しました。さらに、適切なモデル選択とプロンプトエンジニアリング(prompt engineering)を通じて、ツールの識別精度を 34% から 70% に向上させました。これにより、手作業で時間のかかるプロセスが自動化され、スケーラブルなデータパイプラインソリューションへと変貌しました。この画期的な進展は、自律型機械の展開を加速させました。
このアプローチは、同様のデータ課題に直面している組織にとって再現可能な枠組みを提供し、基盤モデル(FMs)への戦略的な投資が、測定可能な運用成果と競争優位性をもたらすことを示しています。基盤モデルとは、自己教師あり学習技術を用いて膨大な量のデータで訓練され、多くの下流タスクに適応できる汎用的な表現を学習するモデルです。VLM はこれらの大規模事前学習技術を駆使して視覚とテキストのモダリティをつなぎ合わせ、画像と言語の両方にわたるコンテンツの理解、分析、生成を可能にします。
次のセクションでは、Bedrock Robotics が VLM ベースのソリューションを用いて数百万時間の映像 footage を注釈付けし、イノベーションを加速させたプロセスについて見ていきます。
VLM を用いた非構造化動画データから戦略的資産へ
自律型建設機械を実現するには、数百万時間にわたる非構造化の運用映像から有用な情報を抽出する必要があります。具体的には、Bedrock Robotics は多様なシナリオにわたって工具のアタッチメント、タスク、作業現場の状態を特定する必要がありました。以下の画像は、このデータセットからの例示的な動画フレームです。

建設機械は複数の工具アタッチメントを備えており、それぞれが信頼性の高い AI モデルを訓練するために正確な分類が必要です。イノベーションセンターと連携した Bedrock Robotics は、その革新活動においていくつかの重要な工具カテゴリに注力しました。具体的には、資材運搬用のリフティングフック、コンクリート解体用のハンマー、表面整地用のグラディングビーム、狭い掘削用のトレンチングバケットです。
これらのラベルにより、Bedrock Robotics は関連するビデオセグメントを選択し、さまざまな機械構成と運用条件を反映したトレーニングデータセットを組み立てることが可能になります。
戦略的なモデル最適化による AI 展開の加速
市販の VLM(プロンプト最適化を行っていない VLM)は、ウェブ画像で訓練されているため建設現場のビデオデータには対応が難しく、ショベルカーのキャビンから撮影されたオペレーター映像とは性質が異なります。不自然なアングルや機器固有の視覚情報、粉塵や天候による視界不良といった状況にも対処できません。また、掘削用バケットとトレンチングバケットのように視覚的に類似した工具を区別するためのドメイン知識も欠いています。
Bedrock Robotics とイノベーションセンターは、標的型モデルの選定とプロンプト最適化を通じてこの課題に対処しました。チームは複数の VLM(オープンソースオプションおよび Amazon Bedrock で利用可能な FMs を含む)を評価し、各工具の詳細な視覚説明、混同されやすい工具ペアへのガイダンス、ビデオフレーム分析のための段階的な指示を組み込んだプロンプトを洗練させました。
これらの改良により、130 本の動画からなるテストセットにおいて、分類精度は 34% から 70% に向上し、動画処理時間あたり 10 ドルというコストで実現されました。これらの結果は、プロンプトエンジニアリングが VLM(Vision-Language Model)を専門タスクに適応させる方法を示しています。Bedrock Robotics にとって、このカスタマイズによりトレーニングサイクルの高速化、デプロイまでの期間短縮、運用ニーズに応じて進化していくコスト効率に優れたスケーラブルな注釈付けパイプラインが実現されました。
今後の道筋:自動化による労働力不足への対応
競争優位性。Bedrock Robotics において、ビジョン・ランゲージシステムは重要なデータセットの迅速な特定と抽出を可能にし、膨大な建設現場の動画映像から必要な洞察を提供しました。70% の全体的な精度を有するこのコスト効率の高いアプローチは、モデルトレーニングのためのデータ準備をスケーリングするための実用的な基盤となります。これは、戦略的な AI 革新が労働力の制約を変革し、業界の変革を加速させる方法を示しています。データ準備を合理化できる組織は、自律システムのデプロイを加速し、運用コストを削減し、労働力不足の影響を受ける産業における新たな成長領域を探求できます。この反復可能なフレームワークにより、同様の課題に直面する製造業および産業自動化のリーダーたちは、これらの原則を自らのドメイン内で競争優位性を駆動するために適用することができます。
詳細については、Bedrock Robotics のウェブサイトをご覧ください、または AWS 上の物理 AI リソースを検索してください。
AWS Physical AI Fellowship
AI で物理世界を変革する
実践における Physical AI
著者について
原文を表示
Scaling data annotation using vision-language models to power physical AI systems
Critical labor shortages are constraining growth across manufacturing, logistics, construction, and agriculture. The problem is particularly acute in construction: nearly 500,000 positions remain unfilled in the United States, with 40% of the current workforce approaching retirement within the decade. These workforce limitations result in delayed projects, escalating costs, and deferred development plans. To address these constraints, organizations are developing autonomous systems that can perform tasks that fill capacity gaps, extend operational capabilities, and offer the added benefit of around-the-clock productivity.
Building autonomous systems requires large, annotated datasets to train AI models. Effective training determines whether these systems deliver business value. The bottleneck: the high cost of data preparation. Critically, the act of labeling video data—identifying information about equipment, tasks, and the environment—is required to make sure that the data is useful for model training. This step can impede model deployment, which slows down the delivery of AI-powered products and services to customers. For construction companies managing millions of hours of video, manual data preparation and annotation become impractical. Vision-language models (VLMs) help to address this by interpreting images and video, responding to natural language queries, and generating descriptions at a speed and scale that manual processes cannot match, providing a cost-effective alternative.
In this post, we examine how Bedrock Robotics tackles this challenge. By joining the AWS Physical AI Fellowship, the startup partnered with the AWS Generative AI Innovation Center to apply vision-language models that analyze construction video footage, extract operational details, and generate labeled training datasets at scale, to improve data preparation for autonomous construction equipment.
Bedrock Robotics: a case study in accelerating autonomous construction
Since 2024, Bedrock Robotics has been developing autonomous systems for construction equipment. The company’s product, Bedrock Operator, is a retrofit solution that combines hardware with AI models to enable excavators and other machinery to operate with minimal human intervention. These systems can perform tasks like digging, grading, and material handling with centimeter-level precision. Training these models requires massive volumes of video footage capturing equipment, tasks, and the surrounding environment – a highly resource-intensive process that limits scalability.
VLMs offer a solution by analyzing this image and video data and generating text descriptions. This makes them well-suited for annotation tasks, which is critical for teaching models how to associate visual patterns with human language. Bedrock Robotics used this technology to streamline data preparation for training AI models, enabling autonomous operations for equipment. Additionally, through proper model selection and prompt engineering, the company improved tool identification from 34% to 70%. This transformed a manual, time-intensive process into an automated, scalable data pipeline solution. The breakthrough accelerated deployment of autonomous equipment.
This approach provides a replicable framework for organizations facing similar data challenges and demonstrates how strategic investment in foundation models (FMs) can deliver measurable operational outcomes and a competitive advantage. Foundation models are models trained on massive amounts of data using self-supervised learning techniques that learn general representations that can be adapted to many downstream tasks. VLMs leverage these large-scale pretraining techniques to bridge visual and textual modalities, enabling them to understand, analyze, and generate content across both image and language.
In the following sections, we look at the process that Bedrock Robotics used to annotate millions of hours of video footage and accelerate innovation using a VLM-based solution.
From unstructured video data to a strategic asset using VLMs
Enabling autonomous construction equipment requires extracting useful information from millions of hours of unstructured operational footage. Specifically, Bedrock Robotics needed to identify tool attachments, tasks, and worksite conditions across diverse scenarios. The following images are example video frames from this dataset.

Construction equipment operates with multiple tool attachments, each requiring accurate classification to train reliable AI models. Working with the Innovation Center, Bedrock Robotics focused their innovation efforts by addressing a few critical tool categories: lifting hooks for material handling, hammers for concrete demolition, grading beams for surface leveling, and trenching buckets for narrow excavation.
These labels allow Bedrock Robotics to select relevant video segments and assemble training datasets that represent a variety of equipment configurations and operating conditions.
Accelerating AI deployment through strategic model optimization
Off-the-shelf VLMs (VLMs without prompt optimization) struggle with construction video data because they’re trained on web images, not operator footage from excavator cabins. They can’t handle unusual angles, equipment-specific visuals, or poor visibility from dust and weather. They also lack the domain knowledge to distinguish visually similar tools like digging buckets from trenching buckets.
Bedrock Robotics and the Innovation Center addressed this through targeted model selection and prompt optimization. The teams evaluated multiple VLMs—including open source options and FMs available in Amazon Bedrock—then refined prompts with detailed visual descriptions of each tool, guidance for commonly confused tool pairs, and step-by-step instructions for analyzing video frames.
These modifications enhanced the classification accuracy from 34% to 70% on a test set comprising 130 videos, at $10 per hour of video processing. These results demonstrate how prompt engineering adapts VLMs to specialized tasks. For Bedrock Robotics, this customization delivered faster training cycles, reduced time-to-deployment, and a cost-effective scalable annotation pipeline that evolves with operational needs.
The path forward: addressing labor shortages through automation
The Competitive Advantage. For Bedrock Robotics, vision-language systems enabled rapid identification and extraction of critical datasets, providing necessary insights from massive construction video footage. With an overall accuracy of 70%, this cost-effective approach provides a practical foundation for scaling data preparation for model training. It demonstrates how strategic AI innovation can transform workforce constraints and accelerate industry transformations. Organizations that streamline data preparation can accelerate autonomous system deployment, reduce operational costs, and explore new areas for growth in industries impacted by labor shortages. With this repeatable framework, manufacturing and industrial automation leaders facing similar challenges can apply these principles to drive competitive differentiation within their own domains.
To learn more, visit Bedrock Robotics or explore the physical AI resources on AWS.
AWS Physical AI Fellowship
Transforming the Physical World with AI
Physical AI in Practice
About the authors
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み