Qwen-Image-2.0 技術レポート(57 分間読了)
アリババグループが公開した Qwen-Image-2.0 の技術報告書は、画像生成と理解の両面で従来モデルを凌駕する性能を示し、マルチモーダル AI の新たな基準を確立しました。
キーポイント
高度な視覚推論能力の実現
単なる画像生成だけでなく、複雑な視覚的因果関係の理解や詳細な分析において、既存の最先端モデルと同等かそれ以上の性能を発揮することが報告されています。
多様なタスクへの統合対応
テキストから画像への生成(Text-to-Image)だけでなく、画像からのテキスト生成(Image-to-Text)、視覚的な質問応答(VQA)など、一貫したアーキテクチャで多様なタスクを処理します。
大規模データと学習手法の革新
高品質な合成データやフィルタリングされた大規模視覚データセットを活用し、効率的なトレーニング手法によってモデルの汎用性と精度を大幅に向上させています。
オープンソース・コミュニティへの貢献
技術報告書の公開に伴い、研究コミュニティや開発者が最先端のマルチモーダル技術を検証・応用するための基盤を提供し、業界全体の発展を促進します。
統合型フレームワークと条件エンコーダー
Qwen3-VLを条件エンコーダーとして採用し、マルチモーダル拡散トランスフォーマーと組み合わせることで、高忠実度生成と精密な画像編集を単一モデルで実現しています。
超長テキストレンダリングと多言語対応
最大1Kトークンの指示に対応し、スライドやポスターなどの文字情報豊富なコンテンツにおいて、多言語のタイポグラフィ精度と忠実性を大幅に向上させています。
高解像度フォトリアリズムと複雑なプロンプト遵守
より豊かなディテール、リアルなテクスチャ、一貫した照明を備えた高解像度の写真生成が可能となり、多様なスタイルにおける複雑な指示への従順性も強化されています。
影響分析・編集コメントを表示
影響分析
この技術報告書は、アリババがマルチモーダル AI 分野で世界トップレベルの競争力を維持・強化していることを示す決定的な証拠であり、特に画像生成と推論の統合において新たなベンチマークを提示しています。今後のオープンソースコミュニティや産業応用における Qwen-Image シリーズの採用拡大が期待され、視覚言語モデル(VLM)の標準的なアーキテクチャ設計に影響を与える可能性があります。
編集コメント
アリババが公開した本技術報告書は、Qwen シリーズの画像分野における飛躍的な進化を裏付ける重要なドキュメントです。生成と理解の両面での性能向上は、実務への応用可能性を大きく広げるものであり、業界全体にとって注目すべき進展と言えます。
コンピュータサイエンス > コンピュータビジョンとパターン認識
arXiv:2605.10730 (cs)
著者:Bing Zhao, Chenfei Wu, Deqing Li, Hao Meng, Jiahao Li, Jie Zhang, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kuan Cao, Kun Yan, Liang Peng, Lihan Jiang, Niantong Li, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiao Xu, Xiaoyue Chen, Xihua Wang, Yan Shu, Yanran Zhang, Yi Wang, Yilei Chen, Ying Ba, Yixian Xu, Yujia Wu, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhendong Wang, Zihao Liu, Zikai Zhou, An Yang, Chen Cheng, Chenxu Lv, Dayiheng Liu, Fan Zhou, Hantian Xiong, Hongzhu Shi, Hu Wei, Huihong Zhao, Ivy Liu, Jianwei Zhang, Jiawei Zhang, Kai Chen, Kang He, Levon Xue, Lin Qu, Linhan Tang, Luwen Feng, Minggang Wu, Minmin Sun, Na Ni, Rui Men, Shuai Bai, Sishou Zheng, Tao Lan, Tianqi Zhang, Tingkun Wen, Wei Wang, Weixu Qiao, Weiyi Lu, Wenmeng Zhou, Xiaodong Deng, Xiaoxiao Xu, Xinlei Fang, Xionghui Chen, Yanan Wang, Yang Fan, Yichang Zhang, Yixuan Xu, Yu Wu, Zhiyuan Ma, Zhizhi Cai
**
要約:私たちは、高忠実度生成と精密な画像編集を単一のフレームワークに統合したオムニキャパブルな画像生成基盤モデル「Qwen-Image-2.0」を発表します。最近の進展にもかかわらず、既存モデルは依然として超長文テキストのレンダリング、多言語タイポグラフィ、高解像度フォトリアリズム、堅牢な指示従順性、そして効率的な展開において課題を抱えており、特にテキストが豊富で構造的に複雑なシナリオにおいて顕著です。Qwen-Image-2.0 は、Qwen3-VL を条件エンコーダーとして、マルチモーダル拡散トランスフォーマーを結合条件・ターゲットモデリングのために用いることでこれらの課題に対処し、大規模なデータキュレーションとカスタマイズされた多段階トレーニングパイプラインによって支えられています。これにより、柔軟な生成および編集能力を維持しつつ強力なマルチモーダル理解を実現します。本モデルは、スライド、ポスター、インフォグラフィック、コミックスなどのテキスト豊富なコンテンツの生成において最大 1K トークンの指示をサポートし、多言語テキストの忠実度とタイポグラフィを大幅に改善します。また、より豊かなディテール、よりリアルなテクスチャ、一貫したライティングによりフォトリアリスティックな生成を強化し、多様なスタイルにわたって複雑なプロンプトをより確実に従順します。広範な人間評価において、Qwen-Image-2.0 は生成と編集の両方で以前の Qwen-Image モデルを大幅に上回っており、より一般的で信頼性が高く実用的な画像生成基盤モデルへの一歩を示しています。
対象分野:
コンピュータビジョンおよびパターン認識 (cs.CV)
参照形式:
arXiv:2605.10730 [cs.CV]
(または、このバージョンについては
arXiv:2605.10730v1 [cs.CV])
https://doi.org/10.48550/arXiv.2605.10730
arXiv 発行 DOI (DataCite 経由)
## 提出履歴
From: Shengming Yin [メールを表示]
[v1]**
2026 年 5 月 11 日 (月) 15:34:56 UTC (45,347 KB)
全文リンク:
ページへのアクセス:
- PDF を表示
- TeX ソース
## 現在の閲覧コンテキスト:
cs.CV
閲覧方法の変更:
ブックマーク
書誌ツール
書誌・引用ツール
Bibliographic Explorer トグル
Connected Papers トグル
Litmaps トグル
scite.ai トグル
コード、データ、メディア
この論文に関連するコード、データ、メディア
alphaXiv トグル
コードへのリンク トグル
DagsHub トグル
GotitPub トグル
Huggingface トグル
ScienceCast トグル
デモ
デモ
Replicate トグル
Spaces トグル
スペース切り替え
関連論文
推薦者と検索ツール
インフルエンスフラワーへのリンク
コア推薦機能の切り替え
arXivLabs について
コミュニティ協力者による実験的プロジェクト
arXivLabs は、コラボレーターが当ウェブサイトで直接新しい arXiv の機能を開発・共有できるフレームワークです。
arXivLabs とともに活動する個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当方の価値観を支持し、受け入れています。arXiv はこれらの価値観にコミットしており、これらに準拠するパートナーとのみ連携しています。
arXiv のコミュニティにとって価値あるプロジェクトのアイデアをお持ちですか?arXivLabs について詳しくはこちら。
原文を表示
Computer Science > Computer Vision and Pattern Recognition
arXiv:2605.10730 (cs)
Authors:Bing Zhao, Chenfei Wu, Deqing Li, Hao Meng, Jiahao Li, Jie Zhang, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kuan Cao, Kun Yan, Liang Peng, Lihan Jiang, Niantong Li, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiao Xu, Xiaoyue Chen, Xihua Wang, Yan Shu, Yanran Zhang, Yi Wang, Yilei Chen, Ying Ba, Yixian Xu, Yujia Wu, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhendong Wang, Zihao Liu, Zikai Zhou, An Yang, Chen Cheng, Chenxu Lv, Dayiheng Liu, Fan Zhou, Hantian Xiong, Hongzhu Shi, Hu Wei, Huihong Zhao, Ivy Liu, Jianwei Zhang, Jiawei Zhang, Kai Chen, Kang He, Levon Xue, Lin Qu, Linhan Tang, Luwen Feng, Minggang Wu, Minmin Sun, Na Ni, Rui Men, Shuai Bai, Sishou Zheng, Tao Lan, Tianqi Zhang, Tingkun Wen, Wei Wang, Weixu Qiao, Weiyi Lu, Wenmeng Zhou, Xiaodong Deng, Xiaoxiao Xu, Xinlei Fang, Xionghui Chen, Yanan Wang, Yang Fan, Yichang Zhang, Yixuan Xu, Yu Wu, Zhiyuan Ma, Zhizhi Cai
Abstract:We present Qwen-Image-2.0, an omni-capable image generation foundation model that unifies high-fidelity generation and precise image editing within a single framework. Despite recent progress, existing models still struggle with ultra-long text rendering, multilingual typography, high-resolution photorealism, robust instruction following, and efficient deployment, especially in text-rich and compositionally complex scenarios. Qwen-Image-2.0 addresses these challenges by coupling Qwen3-VL as the condition encoder with a Multimodal Diffusion Transformer for joint condition-target modeling, supported by large-scale data curation and a customized multi-stage training pipeline. This enables strong multimodal understanding while preserving flexible generation and editing capabilities. The model supports instructions of up to 1K tokens for generating text-rich content such as slides, posters, infographics, and comics, while significantly improving multilingual text fidelity and typography. It also enhances photorealistic generation with richer details, more realistic textures, and coherent lighting, and follows complex prompts more reliably across diverse styles. Extensive human evaluations show that Qwen-Image-2.0 substantially outperforms previous Qwen-Image models in both generation and editing, marking a step toward more general, reliable, and practical image generation foundation models.
Subjects:
Computer Vision and Pattern Recognition (cs.CV)
Cite as:
arXiv:2605.10730 [cs.CV]
(or
arXiv:2605.10730v1 [cs.CV] for this version)
https://doi.org/10.48550/arXiv.2605.10730
arXiv-issued DOI via DataCite
Submission history
From: Shengming Yin [view email] [v1]
Mon, 11 May 2026 15:34:56 UTC (45,347 KB)
Full-text links:
Access Paper:
- View PDF
- TeX Source
Current browse context:
cs.CV
Change to browse by:
Bookmark
Bibliographic Tools
Bibliographic and Citation Tools
Bibliographic Explorer Toggle
Connected Papers Toggle
Litmaps Toggle
scite.ai Toggle
Code, Data, Media
Code, Data and Media Associated with this Article
alphaXiv Toggle
Links to Code Toggle
DagsHub Toggle
GotitPub Toggle
Huggingface Toggle
ScienceCast Toggle
Demos
Demos
Replicate Toggle
Spaces Toggle
Spaces Toggle
Related Papers
Recommenders and Search Tools
Link to Influence Flower
Core recommender toggle
About arXivLabs
arXivLabs: experimental projects with community collaborators
arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.
Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.
Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み