フォルクスワーゲングループが生成AIでマーケティングを再構想
ヴォルクスワーゲン・グループはAWSの生成AIを活用し、画像生成と品質評価を連携させたパイプラインを構築し、ブランド準拠のマーケティング素材作成コストと時間を大幅に削減した。
キーポイント
大規模制作とブランド精密性の課題
年間数千点のマーケティング素材作成において、10ブランドの厳格なガイドライン準拠と物理撮影に要する高額コスト・長時間が業務ボトルネックとなっていた。
生成AIを活用したエンドツーエンドパイプライン
Amazon SageMaker AIで写実的な車両画像を生成し、Amazon Bedrockで技術的正確性とブランド適合性を評価する仕組みを構築し、従来の数ヶ月かかるプロセスを分単位に短縮した。
コスト削減と市場投入スピードの加速
物理プロトタイプやスタジオ撮影を大幅に削減しながら、市場投入までのリードタイムを劇的に短縮し、競合優位性を確保する基盤を確立した。
影響分析・編集コメントを表示
影響分析
本記事は、大規模製造業における生成AIの現実的な適用事例を示しており、単なる技術デモを超えて実務レベルでのビジネス価値を証明している。特に「生成」と「評価」をクラウドサービスで分離統合する設計は、ブランド管理が厳格な業界におけるAI導入の標準的なパターンを提示する。これにより、マーケティング部門のデジタルトランスフォーメーションが加速し、競合他社との時間差優位を築く基盤となる可能性がある。
編集コメント
大規模メーカーのマーケティング現場における生成AIの実装事例は、技術導入のハードルを下げつつブランド管理の課題を解決する実用的なモデルを示している。今後は評価基盤の高度化とマルチブランド対応の自動化が、業界標準となる可能性がある。
この投稿は、フォルクスワーゲン・グループのセバスチャン・アンガースバッハ、フィリップ・トレムプラー、そしてウェイラン・張によって共同執筆されました。
Volkswagen Group は世界最大の自動車メーカーの一つであり、2025 年の最初の 9 ヶ月間で 660 万台の車両を納入しました。同グループは 5 つの欧州諸国にまたがる 10 の異なるブランドで構成されています:Volkswagen、Volkswagen Commercial Vehicles、ŠKODA、SEAT、CUPRA、Audi、Lamborghini、Bentley、Porsche、そして Ducati です。2025 年、AWS Generative AI Innovation Center はフォルクスワーゲン・グループのマーケティングおよび技術チームと協力し、ブランドの精度を維持しながら生成 AI のスピードと規模を活用できるソリューションを構築しました。その結果、Amazon SageMaker AI エンドポイントにホストされた画像生成モデルと、Amazon Bedrock によって駆動される画像評価機能を備えた、エンドツーエンドのマーケティング画像生成および評価パイプラインが実現されました。以下の図は、このエンドツーエンドのマーケティング画像生成および評価パイプラインを示しています。

本稿では、フォルクスワーゲン・グループがスケールしてブランド準拠のマーケティング資産を制作する際に直面した課題について探ります。また、フォトリアリスティックな車両画像を生成し、コンポーネントレベルで技術的な正確性を検証し、10 のブランド全体にわたってブランドガイドラインの遵守と整合性を確保するための生成 AI ソリューションをどのように構築したかについて詳しく解説します。
課題——グローバル規模とブランド精度の衝突
フォルクスワーゲングループのマーケティングチームにとって、この規模は並外れた挑戦を生み出しています。年間数千点ものマーケティング素材を制作しながら、すべての画像が顧客が期待する厳格なブランド基準に完全に合致していることを保証する必要があります。単一の車両発売でも、数百ものバリエーションが必要となる場合があります——異なるアングル、環境、照明条件、地域ごとの適応などです。これらは従来、それぞれ数ヶ月にわたる制作作業を要していました。
単一モデルのための現地撮影では、費用が六桁(10 万ドル以上)に達することさえあります。これには物理的なプロトタイプ、精密な照明装置を備えた専門スタジオのセットアップ、そして異なる環境ショットのために車両を場所間で輸送するための複雑な物流が必要です。制作コスト以外にも、真のボトルネックは検証プロセスに存在しました。各素材が市場に出る前に、そのブランド固有の声やビジュアルガイドラインと完全に整合していることを確認する工程です。
もしフォルクスワーゲンが、数週間ではなく数分で写実的な車両画像を生成できたとしたらどうでしょうか?その可能性は明確でした——市場投入までの時間の短縮、劇的なコスト削減、そして大規模なパーソナライズドコンテンツの作成能力です。しかし、プレミアム自動車ブランドにとって、譲れない制約がありました。生成されるすべての画像がプロの写真と見分けがつかないものであり、かつブランドガイドラインに完全に合致している必要があるということです。
課題は技術的な正確性を超えていました。グループの10ブランドそれぞれが独自のビジュアル言語を持っており、ベントレーの控えめなエレガンスには、ポルシェのパフォーマンス重視の美学やシュコダの親しみやすいモダンさとは異なる演出が必要です。ソリューションは高品質な画像を生成するだけでなく、各アセットがそれぞれのブランド固有のアイデンティティを尊重しているかを体系的に検証できるものでなければなりませんでした。
ブランドに準拠した車両画像の大規模生成
フォルクスワーゲンの生成AIにおける最初のステップは一見単純そうでした:基盤モデル(Foundation Models: FMs)が車両の写実的な画像を生成できるか。ベース拡散モデルを用いた初期の実験では、2つの決定的なギャップが明らかになりました。第一に、これらのモデルは印象的な自動車イメージを生成できる一方で、フォルクスワーゲンのデザイン言語における数十年分の蓄積が欠けていました。些細な特徴こそが重要なのです:グリルメッシュの正確な質感、ヘッドライトハウジングの幾何学的形状、各モデルライン固有のホイールスポークパターンなどです。モデルはフォルクスワーゲン車を生成しますが、実際の年式に一致しない汎用的なホイールやグリルパターンになってしまいます。第二に、ベースモデルには未発表車両に関する知識がありませんでした。開発中の来年のモデルの画像を生成できず、先を見据えたマーケティングキャンペーンにおける有用性が著しく制限されていました。
このソリューションには、フォルクスワーゲンの独自視覚資産に基づいてファウンデーションモデルを微調整する必要性がありました。SolidMeta と連携し、チームは NVIDIA Omniverse のデジタルツインから収集したトレーニングデータを用いた DreamBooth 微調整手法を採用しました。以下の図は、フォルクスワーゲン・ティグアンにおけるこのプロセスを示しています。DreamBooth 訓練は 2 つの部分で構成されます:まず、モデルは「[VW Tiguan]」という固有の識別子トークンとペアになった VW ティグアンの画像から学習し、特定の車両を認識できるようにします。次に、汎用的な車の画像を用いて訓練を行い、一般的な能力を維持するとともに、トレーニングセットへの過学習を防ぎます。

このアプローチにより、車両仕様や環境条件を精密に制御しながら高品質なトレーニングデータを生成することが可能になります。チームは、LoRA(Low-Rank Adaptation:低ランク適応)アダプターを強化した Flux.1-Dev 拡散モデルを Amazon SageMaker AI エンドポイント上で展開しました。この手法により、ベースモデルの一般的な画像生成能力を維持しつつ、グリルの質感や特定のトリムオプションに至るまで、VW のデザイン言語に対するモデルの理解を専門化することができました。
アーキテクチャは、トレーニングと推論の両方に Amazon SageMaker AI の管理インフラストラクチャを使用しました。カスタマイズされたモデルは、計算集約型の拡散プロセスを処理する ml.g5.2xlarge GPU インスタンス上で非同期推論用に構成された Amazon SageMaker AI エンドポイントにデプロイされました。チームは、可変ワークロードを効率的に処理できるように、自動スケーリング機能を備えた非同期推論パイプラインを設定しました。
しかし、画像生成には微調整済みのモデルだけでなく、適切なプロンプトも必要でした。チームはすぐに、自動車マーケティング用の画像に対する効果的なプロンプトには、一般ユーザーが欠いている専門用語やスタイル修飾子が必要であることを発見しました。マーケティングチームのメンバーが「森の中のシルバー VW」と入力しても、ブランドコンプライアンスに準拠した画像を生成するには、さらに詳細な指定が必要です:照明条件、カメラアングル、環境の詳細、および車両機能の正確な記述です。
このギャップを埋めるため、Volkswagen は Amazon Nova Lite を使用した自動プロンプト最適化システムを実装しました。各画像生成リクエストの前には、Nova Lite がユーザーの入力プロンプトを強化し、VW のマーケティングガイドラインから抽出されたブランドに適切な詳細、技術仕様、スタイル要素を追加して拡張します。単純なプロンプトは、拡散モデルがブランドコンプライアンスに準拠した出力へと導く包括的な記述へと変化します。
微調整されたモデルは、正確なグリルテクスチャ、各トリムレベルに固有の正しいホイールデザイン、および各 VW ブランドに固有の適切な車両プロポーションを備えた画像を生成しました。プロンプトの最適化により、異なるユーザーやユースケース全体でスタイルとトーンの整合性が確保されました。マーケティングチームは теперь、従来の方法では視覚化が不可能だった未発表モデルを含む高品質な車両レンダリングをより迅速に生成できるようになりました。

しかし、新たな課題が浮上しました。大規模な生成において、すべての生成画像がフォルクスワーゲンの厳格な基準を満たしていることをどのように検証するかです。数百または数千のバリエーションを生成する際、各画像を手動で検査することは現実的ではありませんでした。チームは、人間のブランド専門家と同じ精度で画像を評価でき、かつ機械速度で実行できる自動化された品質管理システムを必要としていました。
自動品質管理 – コンポーネントレベルの評価
チームの最初の直感は、PSNR(ピーク信号対雑音比)や SSIM(構造的類似度指数)といった確立された画像品質指標を活用することでした。しかし、これらの指標はすぐに不十分であることが判明しました。これらは背景を含む画像全体を評価するため、車両そのものを切り離して特定することが不可能です。さらに重要なのは、どの特定のコンポーネントが間違っているのかを特定できない点です。生成された画像が許容範囲の数値スコアを得ていても、グリルのパターンが誤っていたり、ホイールのデザインが違ったりする可能性があります。しかし、これこそが最も重要な詳細情報です。数値スコアは人間の知覚としばしば一致しません。専門家にとって明らかに間違っているように見える画像でも、従来の指標では高いスコアを獲得することがあります。
チームは異なるアプローチを必要としていました。自動車設計に特有の詳細な基準を用いて個々のコンポーネントを検査し、人間が専門家の行うような方法で車両を評価することです。
その解決策は、コンピュータビジョンのセグメンテーションと、自動審査員としてのビジョン・ランゲージモデル(VLMs)を組み合わせたものです。このプロセスでは、参照用写真と生成画像の両方を、ホイール、グリル、ヘッドライト、フロントガラス、ミラー、ドア、バンパー、ロゴといった個々のコンポーネントに分解することから始まります。以下のフォルクスワーゲン・ティグアンの実写写真は、ゼロショット画像セグメンテーションモデルを用いて各コンポーネントを強調表示するバウンディングボックス付きで、4 つの標準的な角度からのこのセグメンテーションを示しています。
以下の図は、生成された画像に同じプロセスを適用した例を示しています。

このセグメンテーション(画像分割)では、Amazon SageMaker AI エンドポイントでホストされているオープンソースの Florence-2 モデルを使用しています。これにより、チームは汎用的なオブジェクト検出に頼るのではなく、検出すべきコンポーネントを正確に指定できるようになりました。偶発的なエラーに対応するため、パイプラインには Nova Lite を用いた大規模言語モデル(LLM)支援の検証ステップが含まれており、抽出された各セグメントが意図したラベルと一致しているかを確認します。コンポーネントの分割とペアリングが完了すると、以下の図に示すように評価のために並べて表示されます。

チームは部品ごとの評価基準を開発しました。ホイールについてはスポークデザイン、センターキャップの詳細、リムプロファイルが含まれます。グリルについては形状、質感、ロゴの配置をカバーします。ヘッドライトについてはハウジング、トリム、内部構造を評価対象とします。Amazon Bedrock 上の Claude 4.5 Sonnet は VLM(視覚言語モデル)の審査役として機能し、これらの基準を用いて各コンポーネントペアを判定します。このモデルは、1 から 5 までのスコアを定義するキャリブレーションガイドを受け取ります。1 は一般視聴者でも明らかな欠陥がある状態、5 は専門家でも差異を検出できない完全な一致を意味します。Claude は各基準について個別に詳細な推論とともに評価を行います。以下の図はヘッドライトの評価例を示しています。

ハウジングとトリムは満点の 5/5 を獲得しましたが、内部構造は 4/5 と評価され、その理由は「AI が生成した画像では内部構造により多くの詳細が示されていますが、提供された参照画像に基づくと正確ではない可能性があります」というものです。この細粒度フィードバックは、Volkswagen Group(フォルクスワーゲン・グループ)が必要としていた具体的な洞察を提供します。これは、生成された画像が参照仕様からどこで逸脱しているかについて、具体的かつ実行可能な知見です。
パイプラインは AWS Step Functions を通じてオーケストレーションされ、Amazon S3 が参照画像、生成された出力、および評価結果の保存先として機能しています。このシステムは複数の画像にわたるスコアを集約して体系的な課題を特定することが可能で、例えば特定の角度が常に低いスコアを示す場合などがあり、これは追加のトレーニングデータが必要であることを示唆します。
このコンポーネントベースのアプローチは技術的な正確さという課題を解決しました。しかし、製品の正確性を確保することは戦いの半分にしかなりません。フォルクスワーゲンはまた、生成された画像が各ブランド固有のアイデンティティとマーケティングガイドラインを尊重していることを検証する必要もありました。
ブランドガイドライン準拠の促進
コンポーネントレベルでの正確さは、生成されたグリルやホイールが仕様と一致しているかどうかという技術的な課題を解決しました。しかし、フォルクスワーゲンのブランド基準は技術的な正しさをはるかに超えています。グループ内の 10 の各ブランドには、カラーパレットや照明条件から環境的コンテキスト、感情的トーンに至るまで、あらゆる事項を規律する細かく作られたガイドラインが存在します。ポルシェの画像が技術的に完璧であっても、演出が不適切であったり照明が適切でなかったりすれば、ブランドガイドラインに違反することになります。
フォルクスワーゲンのブランドアイデンティティは、現実的で達成可能な設定と、柔らかい夕方のゴールデンアワーのトーンを強調しています。画像には、都市の街路、田舎道、家族の車庫など、ファンタジーや過度に様式化された環境ではなく、実際の車両が映し出されているべきです。演出は本物らしく感じられるものでなければなりません:車両は法的に駐車され、自然な位置に配置され、品質・信頼性・思慮深いエンジニアリングというブランドの価値観と一致する形で提示される必要があります。

地域ごとのバリエーションを考慮すると、複雑さは倍増します。ある業界でコンプライアンス(法令遵守)を満たす内容が、別の業界では規制や文化的規範に違反する可能性があります。フォルクスワーゲン・トゥアレグのトランク機能を紹介するマーケティングを考えてみましょう。スウェーデンでは現行法により、犬は安全ハーネスまたは輸送ボックス内で運ぶことが義務付けられています。もしドイツのマーケティングチームが、トランクの中で自由に動き回る犬を示す画像を使用した場合、そのコンテンツはスウェーデンにおいて法的に非コンプライアント(法令違反)となります。これを数十の市場における数千ものマイクロ規制に掛け合わせると、手動でのレビューを拡張することは不可能になります。
チームは、これらの主観的要素を体系的に評価するために、LLM ベースのブランドガイドライン評価システムを開発しました。このアプローチでは、Amazon Bedrock 上の Claude 4.5 Sonnet を使用し、生成された画像とフォルクスワーゲンの包括的なブランドガイドラインをコンテキストとして提供します。モデルは複数の次元を評価します:ブランドアイデンティティとデザイン言語、色彩表現、画像のスタイルとトーン、車両の提示方法、セットアップと環境、視点と焦点距離、および地域規制への準拠です。以下の図は、ブランド準拠分析の例を示しています。

参照画像と比較するコンポーネント評価システムとは異なり、この評価は基準ベースです。モデルは、画像がフォルクスワーゲンの特徴的なカラーパレットのようなブランド固有の要素を尊重しているか、物語に焦点を当てた画像において感情的なトーンが「ありのままの誠実さを持ち、真に人間味があり、驚くほど共感的である」かどうか、またセットアップが生々しく感じられるものであり、過度に演出されたものではないかを評価します。
このシステムは、手動ではほぼ不可能な地域ごとのコンプライアンス違反を検出する上で特に価値があることが証明されました。ある事例では、英国の業界向けローカライズを意図した画像が評価対象となりました。その画像はイギリスの都市環境における右ハンドル車の描写に成功していましたが、ブランドガイドラインの評価において重大な問題が指摘されました。以下の画像は、地域ごとのコンプライアンス評価の一例を示しています。

モデルは「ロゴとナンバープレート」に対して 2/5 のスコアを付与し、使用されているナンバープレートが欧州大陸スタイルであり、「WOI」で始まるドイツのプレートであると特定したことを説明しました。この詳細な点は、英国の顧客に対して画像が適切にローカライズされていないことを即座に示すシグナルとなります。このような微妙な不整合は、フォルクスワーゲンが維持するために多大な努力を払っている信頼性を損なう恐れがありますが、数百枚の画像を手動でレビューする際には見逃される可能性が高いものです。
コンポーネントレベルでの技術評価とブランドガイドライン準拠チェックを組み合わせることで、フォルクスワーゲンは包括的な品質管理システムを構築しました。生成された画像は、マーケティングチームに届く前に、正確性とブランドとの整合性の両面から自動的にフィルタリングされます。このシステムは両方の次元について詳細なフィードバックを提供し、チームがどの画像が基準を満たしているかを迅速に特定し、なぜ他の画像が満たさないのかを明確に理解できるようにします。
チームはさらに一歩踏み出す機会を認識しました。評価モデル自体を微調整して、フォルクスワーゲンの特定のブランド専門知識により適合させることはできないでしょうか?AI 審査員に、フォルクスワーゲン自身のマーケティング専門家のように思考するよう教えることはできるでしょうか?
継続的な改善 – ブランド評価のための Nova Pro カスタマイズ
Claude 4.5 Sonnet を使用したブランドガイドライン評価システムは強力な結果をもたらしましたが、チームはさらに一歩踏み出す機会を見出しました。フォルクスワーゲンのブランド基準に特化した基盤モデルをカスタマイズし、同社のマーケティング専門家が行うように画像を評価するよう教えることはできないでしょうか?
一つの手法として、教師あり微調整(Supervised Fine-Tuning: SFT)がありますが、これは通常、数千件のラベル付き例を必要とします。フォルクスワーゲングループのマーケティングアナリストに数千枚の画像を手動でラベル付けさせるのは、非現実的かつ高コストです。チームはより効率的な解決策を必要としていました。
彼らの洞察は、
原文を表示
*This post is cowritten by Sebastian Angersbach, Philip Trempler, and Weiran Zhang from Volkswagen Group.*
Volkswagen Group stands as one of the world’s largest automotive manufacturers, delivering 6.6 million vehicles in the first nine months of 2025. The Group comprises ten distinct brands from five European countries: Volkswagen, Volkswagen Commercial Vehicles, ŠKODA, SEAT, CUPRA, Audi, Lamborghini, Bentley, Porsche, and Ducati. In 2025, the AWS Generative AI Innovation Center worked with Volkswagen Group’s marketing and technical teams to build a solution that could harness generative AI’s speed and scale while maintaining the brand precision that defines Volkswagen Group. The result is an end-to-end marketing image generation and evaluation pipeline, with image generation models hosted on Amazon SageMaker AI endpoints and image evaluation powered by Amazon Bedrock. The following diagram shows the end-to-end marketing image generation and evaluation pipeline.

In this post, we explore the challenges that Volkswagen Group faced in producing brand-compliant marketing assets at scale. We walk through how we built a generative AI solution that generates photorealistic vehicle images, validates technical accuracy at the component level, and helps enforce brand guideline compliance alignment across the ten brands.
The challenge – global scale meets brand precision
For Volkswagen Group’s marketing teams, this scale creates an extraordinary challenge: producing thousands of marketing assets annually while making sure that every image reflects the exact brand standards that customers have come to expect. A single vehicle launch might require hundreds of variations—different angles, environments, lighting conditions, and regional adaptations—each traditionally requiring months of production work.
On-location photo shoots for a single model could cost upwards of six figures. They require physical prototypes, professional studio setups with precise lighting rigs, and complex logistics to transport vehicles between locations for different environmental shots. Beyond the production costs, the real bottleneck emerged in the validation process: making sure each asset aligned with its brand’s unique voice and visual guidelines before it could reach the market.
What if Volkswagen could generate photorealistic vehicle images in minutes instead of weeks? The potential was clear—faster time-to-market, dramatic cost reductions, and the ability to create personalized content at scale. But for a premium automotive brand, there was a non-negotiable constraint: every generated image had to be indistinguishable from professional photography and perfectly aligned with brand guidelines.
The challenge extended beyond technical accuracy. Each of the Group’s ten brands has its own visual language: the understated elegance of Bentley demands different staging than the performance-focused aesthetic of Porsche or the accessible modernity of ŠKODA. Solutions would need to generate high-quality images and also systematically validate that each asset honored its brand’s unique identity.
Generating on-brand vehicle images at scale
The first step in Volkswagen’s generative AI journey was deceptively simple: could foundation models (FMs) generate photorealistic images of their vehicles? Initial experiments with base diffusion models revealed two critical gaps. First, while these models could produce impressive automotive imagery, they lacked decades of Volkswagen design language. The tiniest features matter: the exact texture of a grille mesh, the precise geometry of headlight housings, the specific wheel spoke patterns for each model line. The models would generate a Volkswagen, but with generic wheels and grille patterns that didn’t match an actual model year. Second, base models had no knowledge of unreleased vehicles. They couldn’t generate images of next year’s models still under development, severely limiting their utility for forward-looking marketing campaigns.
The solution required fine-tuning foundation models on Volkswagen’s proprietary visual assets. Working with SolidMeta, the team used DreamBooth fine-tuning techniques with training data collected from digital twins in NVIDIA Omniverse. The following diagram illustrates this process for the Volkswagen Tiguan. DreamBooth training works in two parts: first, the model learns from VW Tiguan images paired with a unique identifier token *[VW Tiguan] *that teaches it this specific vehicle. Second, the model trains on generic car images to preserve its general capabilities and help prevent overfitting to the training set.

With this approach, we can generate high-quality training data with precise control over vehicle specifications and environmental conditions. The team deployed the Flux.1-Dev diffusion model enhanced with a LoRA (Low-Rank Adaptation) adapter on an Amazon SageMaker AI endpoint. This approach allowed them to specialize the model’s understanding of the VW design language, down to grille textures and specific trim options, while maintaining the base model’s general image generation capabilities.
The architecture used the managed infrastructure of Amazon SageMaker AI for both training and inference. The customized model was deployed to Amazon SageMaker AI endpoints configured for asynchronous inference on ml.g5.2xlarge GPU instances handling the computationally intensive diffusion process. The team configured the pipeline for asynchronous inference with automatic scaling, allowing it to handle variable workloads efficiently.
But generating images required more than a fine-tuned model, it required the right prompts. The team quickly discovered that effective prompts for automotive marketing imagery required specialized vocabulary and style modifiers that most users lacked. A marketing team member might input “silver VW in a forest,” but generating brand compliance-aligned imagery required far more specificity: lighting conditions, camera angles, environmental details, and precise descriptions of vehicle features.
To bridge this gap, Volkswagen implemented an automated prompt optimization system using Amazon Nova Lite. Before each image generation request, Nova Lite helps enhance the user’s input prompt, expanding it with brand-appropriate details, technical specifications, and stylistic elements drawn from VW’s marketing guidelines. A simple prompt becomes a comprehensive description that guides the diffusion model toward brand compliance-aligned outputs.
The fine-tuned model generated images with accurate grille textures, correct wheel designs specific to each trim level, and proper vehicle proportions unique to each VW brand. The prompt optimization facilitated consistency in style and tone across different users and use cases. Marketing teams could now generate high-quality vehicle renderings quicker – including for unreleased models that would have been impossible to visualize with traditional methods.

But a new challenge emerged: at scale, how do you validate that every generated image meets Volkswagen’s exacting standards? Manual inspection of each image wasn’t feasible when generating hundreds or thousands of variations. The team needed an automated quality control system that could evaluate images with the same precision as a human brand expert—and do it at machine speed.
Automated quality control – component-level evaluation
The team’s first instinct was to leverage established image quality metrics like PSNR (Peak Signal-to-Noise Ratio) and SSIM (Structural Similarity Index). These metrics quickly proved inadequate. They evaluated entire images including backgrounds, making it impossible to isolate the vehicle itself. More critically, they couldn’t identify which specific components were wrong. A generated image might score acceptably while having an incorrect grille pattern or wrong wheel design—precisely the details that matter most. The numerical scores often failed to align with human perception: images that looked obviously wrong to experts might score well on traditional metrics.
The team needed a different approach: evaluate vehicles the way human experts do, by examining individual components with detailed criteria specific to automotive design.
The solution combined computer vision segmentation with vision-language models (VLMs) as automated judges. The process begins by breaking down both reference photographs and generated images into individual components: wheels, grille, headlights, windshield, mirrors, doors, bumpers, and logos. The following real, photographic images of the Volkswagen Tiguan show this segmentation from four standard angles with bounding boxes highlighting each component using a zero-shot image segmentation model.

The following figure shows the same process applied to a generated image:

This segmentation uses the open source Florence-2 model, hosted on an Amazon SageMaker AI endpoint. With this, the team could specify exactly which components to detect rather than relying on generic object detection. To handle occasional errors, the pipeline includes a large language model (LLM)-aided verification step using Nova Lite to confirm each extracted segment matches its intended label. After the components are segmented and paired, they’re presented side-by-side for evaluation as shown in the following figure.

The team developed component-specific criteria: for wheels, this includes spoke design, center cap details, and rim profile; for grilles, it covers shape, texture, and logo positioning; for headlights, it evaluates housing, trim, and internal structure. Claude 4.5 Sonnet on Amazon Bedrock acts as the VLM judge, applying these criteria to each component pair. The model receives a calibration guide defining scores from 1 (obvious flaws visible to casual viewers) to 5 (no differences detectable even by experts). Claude evaluates each criterion individually with detailed reasoning. The following figure demonstrates this for a headlight evaluation.

Housing and trim receive perfect 5/5 scores, but internal structure receives 4/5, with the explanation: “the AI-generated image shows more detail in the internal structure, which might not be accurate according to the provided reference image.” This granular feedback provides exactly what Volkswagen needed—specific, actionable insights about where generated images deviate from reference specifications.
The pipeline is orchestrated through AWS Step Functions, with Amazon S3 providing storage for reference images, generated outputs, and evaluation results. The system can aggregate scores across multiple images to identify systematic issues—for example, discovering that certain angles consistently score lower, indicating a need for additional training data.
This component-based approach solved the technical accuracy challenge. But facilitating product correctness was only half the battle. Volkswagen also needed to validate that generated images honored each brand’s unique identity and marketing guidelines.
Facilitating brand guideline compliance alignment
Component-level accuracy solved the technical challenge of whether a generated grille or wheel matched specifications. But Volkswagen’s brand standards extend far beyond technical correctness. Each of the Group’s ten brands has carefully crafted guidelines governing everything from color palettes and lighting conditions to environmental contexts and emotional tone. A technically perfect image of a Porsche could still violate brand guidelines if staged incorrectly or lit inappropriately.
Volkswagen’s brand identity emphasizes realistic, attainable settings with softer evening golden hour tones. Images should show vehicles in urban streets, countryside roads, family driveways—not fantastical or overly stylized environments. The staging must feel authentic: vehicles parked legally, positioned naturally, and presented in ways that align with the brand’s values of quality, reliability, and thoughtful engineering.

The complexity multiplies when considering regional variations. What’s compliant in one industry may violate regulations or cultural norms in another. Consider marketing the trunk feature of the Volkswagen Touareg. In Sweden, local law requires a dog to be transported in a safety harness or transport box. If the German marketing team uses an image showing a dog loose in the trunk, that content is legally non-compliant in Sweden. Multiply this by thousands of micro-regulations across dozens of markets, and manual review becomes impossible to scale.
The team developed an LLM-based brand guideline evaluation system to systematically assess these subjective elements. The approach uses Claude 4.5 Sonnet on Amazon Bedrock, providing it with both the generated image and Volkswagen’s comprehensive brand guidelines as context. The model evaluates multiple dimensions: brand identity and design language, color representation, image style and tone, vehicle presentation, staging and environment, perspective and focal length, and compliance with regional regulations. The following figure shows an example of a brand compliance analysis.

Unlike the component evaluation system that compares against reference images, this evaluation is criteria-based. The model assesses whether the image honors brand-specific elements like Volkswagen’s signature color palette, whether the emotional tone is “disarmingly honest, genuinely human, and surprisingly empathetic” for story-driven images, and whether the staging feels authentic rather than overly produced.
The system proved particularly valuable for catching regional compliance issues that would be nearly impossible to identify manually. In one example, the system evaluated an image intended for UK industry localization. While the image successfully showed a right-hand drive vehicle in a British urban setting, the brand guideline evaluation flagged a critical issue. The following images show an example of regional compliance evaluation.

The model assigned a 2/5 score to “Logos and License Plates,” explaining that the license plate used a European continental style and identified it as a German plate starting with “WOI”. This detail would immediately signal to UK customers that the image wasn’t properly localized. This kind of subtle inconsistency could undermine the authenticity that Volkswagen works so hard to maintain, yet could go unnoticed in a manual review of hundreds of images.
By combining component-level technical evaluation with brand guideline compliance checking, Volkswagen created a comprehensive quality control system. Generated images are automatically filtered for both accuracy and brand alignment before reaching marketing teams. The system provides detailed feedback on both dimensions, allowing teams to quickly identify which images meet the standards and understand exactly why others don’t.
The team recognized an opportunity to go further. Could they fine-tune the evaluation models themselves to better align with Volkswagen’s specific brand expertise? Could they teach the AI judges to think more like Volkswagen’s own marketing experts?
Continuous improvement – customizing Nova Pro for brand evaluation
The brand guideline evaluation system using Claude 4.5 Sonnet provided strong results, but the team saw an opportunity to go further. Could they customize a foundation model specifically for Volkswagen’s brand standards, teaching it to evaluate images the way the company’s own marketing experts would?
One approach is Supervised Fine-Tuning (SFT), but this typically requires thousands of labeled examples. Getting marketing analysts at Volkswagen Group to manually label thousands of images would be impractical and expensive. The team needed a more efficient solution.
Their insight was to use
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み