AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
fal.ai Blog·2026年4月11日 01:44·約10分

PATINAの紹介

#Computer Vision#3D Graphics#FLUX.2#PBR Mapping#fal.ai
TL;DR

fal.aiは、FLUX.2ベースのモデル「PATINA」を発表し、単一のレンダリング画像からPBRマテリアルマップ(アルベド、ノーマル、ラフネスなど)を高精度に抽出する技術を提供した。

AI深層分析2026年4月28日 01:37
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

PATINAモデルの概要と目的

従来のAI画像生成が苦手としていた、CGIワークフローでの再利用性を高めるため、レンダリング済みの画像からPBR(Physically Based Rendering)マッピングデータを抽出するモデル。

2

技術アーキテクチャ: FLUX.2とDINOv2の融合

画像変換に特化したFLUX.2 [klein]バックボーンを基盤とし、幾何学的な構造の理解に加え、DINOv2バックボーンを持つアダプターを用いてセマンティックセグメンテーション情報をマテリアル予測に統合した。

3

出力されるマテリアルマップの種類

レンダリング画像を入力とすることで、Basecolor(アルベド)、Normal、Roughness、Metalness、Height(ディスペースメント)の5種類の高精度なマッピングを生成可能。

4

既存技術の課題解決

単一画像からの幾何学予測は進歩したが、素材(マテリアル)の grounded understanding が不足していた課題に対し、このモデルがそのギャップを埋めることを目指している。

5

SVBRDF推定への焦点

PATINAは単なる幾何学(深度や法線)の予測を超え、SVBRDF推定に近いアプローチを採用し、多様な照明条件下での外観を再構築するために必要なレンダラーの潜在制御(ベースカラー、粗さ、金属度など)を回復することを目的としている。

6

CC0素材ライブラリ由来のトレーニングデータ

PATINAの学習用データセットは、AmbientCGやPoly Havenなどのパブリックドメインソースから収集したCC0素材ライブラリを用いて構築されており、各素材のベースカラー、粗さ、金属度、変位、法線マップなどの重要なマップが含まれている。

7

カスタムBRDFレンダラーによる高効率データ生成

PyT上で動作するカスタムCook-Torrance BRDFレンダラーを用い、限られた素材ライブラリから多様な照明条件下の「before/after」画像ペアを大量生成し、GPU加速で効率的な学習データセットを作成した。

影響分析・編集コメントを表示

影響分析

この技術は、3Dモデリングやゲーム開発、建築ビジュアライゼーションの現場において、AI生成コンテンツの実用性を飛躍的に高める。特に、手動でマテリアルマップを作成する手間を省き、AI生成のビジュアルをリアルタイムレンダリングやオフラインレンダリング環境にシームレスに統合できるため、制作効率とクオリティの両面に大きな影響を与える。

編集コメント

AI生成画像の「見た目の良さ」と「実用性」の間にある溝を埋める、非常に現実的な応用事例である。3D制作現場のワークフロー革新に直結する可能性を秘めている。

0:00

/0:18

1×

imageimage AI 画像モデルは、石、セラミックス、ブラシ加工金属、革、コンクリートのように見えるものを生成する能力が極めて高くなっていますが、これらの画像は従来の CGI ワークフロー(コンピュータグラフィックス制作工程)ではすぐに利用できません。これらには、独自に視覚的に魅力的な効果をもたらす一方でレンダリングでの使用を困難にする、焼き付けられた鏡面反射ハイライト、オクルージョン、視点の歪み、その他多数の特性が組み込まれているからです。PATINA はこのギャップを埋めることを目指し、最終的なレンダリング画像から高解像度で装飾的に詳細な PBR マップ(物理ベースレンダリング用マッピング)を作成できる機能をユーザーに提供します。モデルへ直接移動してご自身でお試しいただくにはこちらをクリックしてください!

PATINA の核心には、修正された FLUX.2 [klein] バックボーンが採用されています。FLUX.2 は、ビジョン・ランゲージモデルと整流フロー変換器を結合した潜在空間フローマッチングシステムとして構築されており、その klein 変種は画像変換のために特別に設計されました。これにより、レイアウトや構造、空間関係について推論しながらも、実用的なトレーニングと展開が可能であるという要件を満たすモデルの強力な出発点となりました。

私たちの実験において、klein は幾何学に関する驚くほど強い事前知識(prior)をすでに備えていました。しかし、少なくとも単独では十分に強くありませんが、素材に対する grounded な理解は欠けていました。そこで、セマンティックセグメンテーション情報をモデルが素材予測に活用できる形式に変換するためのアダプターを DINOv2 バックボーンと共に追加しました。

image
image
image
image
image
image
image
image
image
image

上段左から順に:レンダリング、ベースカラー(アルベド)、法線、粗さ、金属度、高さ(変位)

なぜマテリアルはジオメトリよりも難しいのか

単一画像からのジオメトリ推定は急速に進化しました。DPT や MiDaS といったアーキテクチャが単眼深度の発展を牽引し、より最近の拡散モデルベースのシステムである Marigold や GeoWizard は、生成事前知識がディテールの向上やゼロショット汎化にどのように寄与するかを示しました。

image
image
image
image
image
image
image
image
image
image

上段左から順に:レンダリング、MiDaS、Depth Anything v2、Marigold Depth、PATINA(本手法)

しかし、幾何学情報は物語の一部に過ぎません。深度マップが正確であっても、ハイライトがグロス(光沢)、メタリック度、あるいはマイクロリリーフのいずれに由来するものなのかについては何も示しませんし、法線マップは方向性を説明できても、形状が似ているにもかかわらず全く異なる方法で光を反射する二つの表面の理由までは説明できません。PATINA は純粋な幾何学予測よりも SVBRDF 推定に近い存在です。これは、表面が 3D 空間上のどこにあるかを単に推測するのではなく、多くの照明条件下での外観を再現するためにレンダラーが必要とする潜在的な制御パラメータを復元しようとしています。

image
image
image
image
image
image
image
image

左上から順に:レンダリング、CHORD、Marigold Normal、PATINA(本手法)

レンダラーが作成したトレーニングセット

PATINA のデータセットは、AmbientCG、Poly Haven、およびその他のパブリックドメインソースを含む CC0 素材ライブラリから構築されました。各素材について、私たちが注目するマップを収集しました:ベースカラー/アルベド(反射率)、ラフネス(粗さ)、メタリック度、ディスプレースメント(変位)、そして法線です。

次に、カスタム Cook-Torrance BRDF レンダラーを使用して、各素材を数十種類の異なる照明シナリオでレンダリングしました。このレンダラーは、GGX/Trowbridge-Reitz マイクロファセット分布、Schlick-GGX スタイルの幾何項、Schlick フレネル近似、パララックスオクルージョンマッピング、および高さフィールドレイマーチングによるセルフシャドウイングを実装しています。これらのレンダリング結果が「Before」画像となり、元の PBR マップが画像ペア学習のための「After」ターゲットとなりました。重要なのは、このレンダラーが PyTorch で動作し、GPU アクセラレーションを通じて大規模なデータセット生成を可能にすることです。

このような微妙なニュアンスを持つレンダラーを使用することで、小さな素材ライブラリでも非常に大きな効果を発揮できます。1 つの素材セットを多数の有効な照明条件下でレンダリングできるため、各アセットは単一の画像ではなく、数十組のトレーニングペアを生成するジェネレーターとして機能します。

0:00 / 0:02

1×

BRDF レンダラーを使用したレンダリングされたフレームのシーケンス

PATINA のトレーニング方法

私たちは、最初からすべての要素を単一の結合目的関数に強制するのではなく、各マップモダリティを個別にトレーニングしました。トレーニングは 512、768、1024 の 3 つの解像度ステージで実行され、各モダリティには事前にエンコードされたテキスト埋め込みが 1 つずつ使用されました。合計すると、モダリティあたり約 150 万ステップ、すべての 5 つのマップ全体では約 750 万ステップとなりました。

メタリックネス(Metalness)は他のチャンネルとは異なっていました。シェーディングの問題として振る舞う前に、セグメンテーション問題としての性質が強く現れたため、微細な予測を行う前にまず材料のセグメンテーションを学習させる独自の事前トレーニングステージが必要でした。

imageimage 8K PATINA テキストからマテリアルマップへの生成(HDR マップは PolyHaven から提供)の 4K Blender Cycles レンダリング

PATINA をフルマテリアルパイプラインとして

研究デモの外でも有用なリリースとするため、Z-Image Turbo Seamless Tiling(シームレス・タイリング)および SeedVR2 Seamless Upscaling(シームレス・アップスケーリング)の専用バージョンも同時に提供しました。これらのエンドポイントは MultiDiffusion を通じてラップアラウンド融合タイリング拡散パスを使用するため、生成、マップ検出、アップスケーリングのすべてがエッジで途切れることなくタイルの連続性を維持します。

これらの上に位置するのが PATINA Material エンドポイントです。これはシームレス生成、シームレス・アップスケーリング、そして PATINA を組み合わせて、テキスト(および任意の開始画像)から最大 8K の完全なシームレス・タイリング PBR マテリアルを生成します。フルマテリアルセットの料金は 0.08 ドラ〜です。

また、PATINA Material Extraction エンドポイントも用意されています。こちらはさらに一歩進んでおり、画像と目的のテクスチャに対する簡単なラベルを入力するだけで、そのテクスチャを特定し、フラットにレンダリングし、視界を妨げる要素を除去し、シームレス・タイリング可能にし、アップスケーリングして、同じ基盤となる PATINA パイプラインから構築されたフルマテリアルセットを返します。

imageimage 8K PATINA テキスト・トゥ・マテリアルマップの 4K Blender Cycles レンダリング(HDR マップは PolyHaven から提供)次は何をするか?

PATINA は強力な第一歩ですが、同時に今後の改善がどこから生まれる可能性が高いかも明確に示しています。

最大の課題はデータの広がりです。現在のトレーニング設定は、各素材を多数の異なる照明条件下でレンダリングできるため、その規模以上に高い性能を発揮していますが、基盤となる素材ライブラリはまだ誘電体表面に偏っています。より現実世界の多様な素材を適切に表現するために、より大規模な素材コーパスを構築中であり、金属質、コーティング済み、半透明、およびそれ以外の従来過小評価されていたクラスを含めます。カバレッジの向上は一般化性能を高め、難易度の高いマップモダリティの信頼性を高めるはずです。

また、素材に特化した微調整されたテキストからタイル画像生成モデルの開発も進めています。現在、PATINA はシームレスな生成およびアップスケーリングエンドポイントと組み合わせることで完全なタイル素材セットを生成できますが、このパイプラインにおける最初の画像をよりネイティブに素材認識型にする余地はまだ大きく残されています。専用のテキストからタイル画像へのモデルは、マップ予測が始まる前から、よりクリーンな構造、優れた反復性、そして強力な素材事前知識を提供するはずです。

最後に、現在のコアセットを超えた追加のマップタイプも探索中です。ベースカラー、ラフネス、メタリック、変位、法線ベクトルは堅固な基盤を形成していますが、これらすべてではありません。システムを拡張して、ルミナンス、不透明度、および素材をより表現豊かにし、後段のレンダリングワークフローでより有用にする他の専用チャネルをサポートするマップに対応させることに興味があります。

参考文献

特別感謝

Ubisoft La Forge に対して特別な感謝の意を表します。彼らの CHORD プロジェクト(Chain of Rendering Decomposition for PBR Material Estimation from Generated Texture Images)は、この研究に直接インスピレーションを与えました。CHORD は、レンダリング自体の構造を尊重することで材料推定がより扱いやすくなるという説得力のある主張を行い、その考え方は私たちが PATINA に取り組んだアプローチと深く共鳴しました。

コアとなるレンダリングおよび材料モデル。Cook & Torrance, A Reflectance Model for Computer Graphics (1982); Walter et al., Microfacet Models for Refraction through Rough Surfaces (2007); Schlick, An Inexpensive BRDF Model for Physically-based Rendering (1994); Tatarchuk, Practical Dynamic Parallax Occlusion Mapping (2005)。

バックボーンおよび幾何学関連のビジョン研究。Esser et al., Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (2024); Oquab et al., DINOv2: Learning Robust Visual Features without Supervision (2024); Ranftl et al., Vision Transformers for Dense Prediction (2021); Birkl et al., MiDaS v3.1: A model Zoo for Robust Monocular Relative Depth Estimation (2023); Ke et al., Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation / Marigold (2024); Fu et al., GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image (2024); Bae & Davison, Rethinking Inductive Biases for Surface Normal Estimation / DSINE (2024)。

関連する素材推定作業。Boss & Lensch, Single Image BRDF Parameter Estimation with a Conditional Adversarial Network (2019); Vecchio et al., SurfaceNet: Adversarial SVBRDF Estimation from a Single Image (2021); Lopes et al., Material Palette: Extraction of Materials from a Single Image (2024); Ying et al., CHORD: Chain of Rendering Decomposition for PBR Material Estimation from Generated Texture Images (2025).

シームレスな生成。Bar-Tal et al., MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation (2023).

原文を表示

0:00

/0:18

1×

imageimageAI image models have become extremely good at producing something that looks like stone, ceramic, brushed metal, leather, or concrete, but these images are not readily usable in a traditional CGI workflow - they have baked-in specular highlights, occlusion, perspective distortions, and any number of other qualities that make it visually appealing on its own, but hard to use in rendering. PATINA aims to bridge that gap, empowering users to create high-resolution, ornately detailed PBR maps from final rendered images. Click here to go straight to the model and try it yourself!

At the core of PATINA is a modified FLUX.2 [klein] backbone. FLUX.2 is built as a latent flow-matching system that couples a vision-language model with a rectified flow transformer, and the klein variant is made specifically for image transformation. That made it a strong starting point for a model that needed to reason about layout, structure, and spatial relationships while still being practical to train and deploy.

In our experiments, klein already had a surprisingly strong prior over geometry. What it did not have, at least not strongly enough on its own, was a grounded understanding of materials. So we added an adapter with a DINOv2 backbone to translate semantic segmentation information into something the model could use for material prediction.

image
image
image
image
image
image
image
image
image
image
image
image

In order from top-left; render, basecolor (albedo), normal, roughness, metalness, height (displacement)

Why materials are harder than geometry

Single-image geometry prediction has advanced quickly. Architectures like DPT and MiDaS pushed monocular depth forward, while more recent diffusion-based systems like Marigold and GeoWizard showed how generative priors can improve detail and zero-shot generalization.

image
image
image
image
image
image
image
image
image
image

In order from top-left; render, MiDaS, Depth Anything v2, Marigold Depth, PATINA (Ours)

Geometry is only part of the story, however - a depth map can be correct while saying nothing about whether a highlight came from gloss, metalness, or micro-relief, and a normal map can explain orientation without explaining why two surfaces with similar shape reflect light in totally different ways. PATINA lives closer to SVBRDF estimation than to pure geometry prediction: it is trying to recover the latent controls a renderer needs in order to recreate appearance under many possible lighting conditions, not just infer where a surface sits in 3D.

image
image
image
image
image
image
image
image

In order from top-left; render, CHORD, Marigold Normal, PATINA (Ours)

A renderer-made training set

PATINA’s dataset was built from CC0 material libraries, including AmbientCG, Poly Haven, and other public-domain sources. For each material, we collected the maps we cared about: basecolor/albedo, roughness, metalness, displacement, and normals.

Then, we rendered each material in dozens of different lighting scenarios using a custom Cook-Torrance BRDF renderer. That renderer implemented GGX/Trowbridge-Reitz microfacet distribution, a Schlick-GGX-style geometry term, Schlick Fresnel approximation, parallax occlusion mapping, and self-shadowing through height-field ray marching. Those renders became the “before” images, and the original PBR maps became the “after” targets for image-pair training. Importantly, this renderer would run in PyTorch, enabling massive dataset generation through GPU acceleration.

Using a nuanced renderer like this means a small material library can punch well above its weight. One material set can be rendered under many valid lighting conditions, so each asset becomes a generator for dozens of training pairs rather than just one.

0:00

/0:02

1×

A sequence of rendered frames using our BRDF renderer

How PATINA was trained

We trained each map modality individually rather than forcing everything into a single joint objective from day one. Training ran in three resolution stages — 512, 768, and 1024 — using a single pre-encoded text embedding per modality. In total, that worked out to roughly 1.5 million steps per modality, or about 7.5 million steps across all five maps.

Metalness was the odd one out. More than the other channels, it behaved like a segmentation problem before it behaved like a shading problem - so metalness required its own pre-training stage to first learn material segmentation before fine-grained prediction worked.

imageimage4K Blender Cycles render of 8K PATINA text-to-material map (HDR maps sourced from PolyHaven)PATINA as a full material pipeline

To make the release useful outside of research demos, we also shipped specialized seamless versions of Z-Image Turbo Seamless Tiling and SeedVR2 Seamless Upscaling. These endpoints use wraparound fused tiled diffusion paths via MultiDiffusion, so generation, map detection and upscaling all preserve tile continuity instead of breaking it at the edges.

On top of those pieces sits the PATINA Material endpoint which uses seamless generation, seamless upscaling, and PATINA together to produce complete seamless tiling PBR materials up to 8K from text (with optional starting image,) starting at $0.08 for a full material set.

There is also the PATINA Material Extraction endpoint. This one goes a step further: give it an image and a simple label for the texture you want, and it identifies that texture, renders it flat, removes occluding elements, makes it seamlessly tileable, upscales it, and returns a full material set built from the same underlying PATINA pipeline.

imageimage4K Blender Cycles render of 8K PATINA text-to-material map (HDR maps sourced from PolyHaven)What's next?

PATINA is a strong first step, but it also makes clear where the next gains are likely to come from.

The biggest one is data breadth. Our current training setup punches well above its weight because each material can be rendered under many different lighting conditions, but the underlying material library still skews toward dielectric surfaces. We are building a much larger material corpus to better represent a wider range of real-world materials, including more metallic, coated, translucent, and otherwise underrepresented classes. Better coverage should improve generalization and make the harder map modalities more reliable.

We are also working on a fine-tuned text-to-tiling-image model designed specifically for materials. Today, PATINA can be combined with seamless generation and upscaling endpoints to produce complete tiling material sets, but there is still a lot of room to make the very first image in that pipeline more natively material-aware. A dedicated text-to-tiling model should give us cleaner structure, better repeatability, and stronger material priors before map prediction even begins.

And finally, we are exploring additional map types beyond the current core set. Basecolor, roughness, metalness, displacement, and normals form a solid foundation, but they are not the whole story. We are interested in extending the system to support maps like luminance, opacity, and other specialized channels that can make materials more expressive and more useful in downstream rendering workflows.

References

Special Thanks

We want to give a special shoutout to Ubisoft La Forge. Their CHORD project — Chain of Rendering Decomposition for PBR Material Estimation from Generated Texture Images — directly inspired this work. CHORD makes a compelling case that material estimation becomes more tractable when you respect the structure of rendering itself, and that idea resonated deeply with how we approached PATINA.

Core rendering and material models. Cook & Torrance, A Reflectance Model for Computer Graphics (1982); Walter et al., Microfacet Models for Refraction through Rough Surfaces (2007); Schlick, An Inexpensive BRDF Model for Physically-based Rendering (1994); Tatarchuk, Practical Dynamic Parallax Occlusion Mapping (2005).

Backbones and geometry-related vision work. Esser et al., Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (2024); Oquab et al., DINOv2: Learning Robust Visual Features without Supervision (2024); Ranftl et al., Vision Transformers for Dense Prediction (2021); Birkl et al., MiDaS v3.1: A model Zoo for Robust Monocular Relative Depth Estimation (2023); Ke et al., Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation / Marigold (2024); Fu et al., GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image (2024); Bae & Davison, Rethinking Inductive Biases for Surface Normal Estimation / DSINE (2024).

Related material-estimation work. Boss & Lensch, Single Image BRDF Parameter Estimation with a Conditional Adversarial Network (2019); Vecchio et al., SurfaceNet: Adversarial SVBRDF Estimation from a Single Image (2021); Lopes et al., Material Palette: Extraction of Materials from a Single Image (2024); Ying et al., CHORD: Chain of Rendering Decomposition for PBR Material Estimation from Generated Texture Images (2025).

Seamless generation. Bar-Tal et al., MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation (2023).

この記事をシェア

関連記事

TLDR AI重要度42026年6月25日 09:00

動画拡散潜在変数からの三角形スプラット生成(5 分読了)

fal.ai Blog重要度42026年5月20日 06:24

fal と AWS:生成メディアの次期フェーズに向けた構築

fal.ai Blog2026年5月16日 03:58

思考の速度で創造が進む世界における長期的な信頼構築

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む