「思考」がより深く、生成がより正確に|Seedream 5.0 Lite リリース
字节跳动Seedは、理解・推論・生成能力を総合的に向上させ、リアルタイム検索機能を初めて導入したマルチモーダル画像生成モデル「Seedream 5.0 Lite」をリリースし、従来の受動的な描画エンジンから能動的な視覚的思考が可能な専門的創作アシスタントへの進化を実現した。
キーポイント
理解・推論・生成能力の総合向上
マルチモーダル統一アーキテクチャを採用し、クロスモーダル理解と推論能力が向上。ユーザーのあいまいな指示をより正確に理解し、意図に合致したコンテンツを生成できるようになった。
リアルタイム検索機能の初導入
モデルがインターネット検索を通じて最新の知識や情報を取得し、時事性のある創作ニーズに応えることができるようになった。
世界知識体系の強化
科学技術と人文科学の複数の専門分野の知識ベースを内蔵し、生成結果が物理法則に合致し、情報可視化能力が大幅に向上した。
視覚的推論生成の実現
複数ステップの思考をサポートし、現実の法則に合致した生成が可能。従来の画像生成モデルでは困難だった視覚的思考タスクを実行できる。
情報可視化能力の向上
豊富な知識体系と深い推論能力により、複雑な概念を直感的で美しい情報図に変換し、生産性を向上させる。
联网检索生成
Seedream 5.0 Lite 引入实时检索能力,可结合最新热点生成内容,如天气、票房、金价等,检索功能可灵活开关以平衡时效性与稳定性。
精准风格迁移
模型通过跨模态理解能力,仅需一张参考图即可捕捉艺术风格(如波西米亚穿搭、印象派油画),实现一键风格迁移,无需复杂提示词。
影響分析・編集コメントを表示
影響分析
このリリースは、画像生成AIが単なる画像生成ツールから、理解・推論・知識応用を統合した知的創作パートナーへの進化を示している。特にリアルタイム検索機能の導入は、生成AIの情報鮮度問題への実用的な解決策を提示し、ニュースや教育など時事性の高い分野での応用可能性を広げる。また、複雑な概念の可視化能力は、研究・教育・ビジネスなどの生産性向上に直接貢献できる潜在力を持つ。
編集コメント
画像生成AIの進化が「より速く・より高解像度」から「より深く考える」段階に移行したことを示す重要なマイルストーン。企業のプレスリリースではあるが、技術的な進歩と実用的な応用可能性の両面で説得力がある内容。
「思考」を深め、生成をより正確に|Seedream 5.0 Lite 発表
オリジナル記事 字节跳动 Seed 2026-02-13 13:32 天津
理解、推論、生成のすべてが大幅に向上
昨年 9 月、統一された編集と生成を備えた画像創作モデル「Seedream 4.0」を発表しました。このモデルは一部の常識と一定の推論能力を融合しており、多くのユーザーから支持されています。
本日、「Seedream 5.0 Lite」という知能型画像創作モデルを発表します。4.0 バージョンと比較して、理解、推論、生成のすべての面で大幅に向上し、「より賢く」「より専門的」なビジュアルクリエイティブパートナーとなっています。
Seedream 5.0 Lite がもたらす主な向上は、解像度の向上や速度の高速化ではなく、「読む」「見る」「描く」「書く」の背後にある深い思考にあります。統一された多モーダルモデルへのさらなる探求として、このモデルは人間のようなデザイナーのように、ユーザー指令の背後にある意図を「理解」し、異なる画像内のパターンを「把握」し、世界知識を画像とテキストの創作に応用できるようになりました。
その上で、私たちは初めて Seedream モデルにリアルタイム検索強化(RAG: Retrieval-Augmented Generation)能力を導入しました。これにより、ネットワークを通じて最新の情報やニュースを検索・取得でき、時事的な創作ニーズに対してより正確に対応できます。
Seedream 5.0 Lite の主なハイライトは以下の通りです:
理解と生成の性能が大幅に向上:モデルは多モーダル統一アーキテクチャを採用しており、そのクロスモーダル(異種間)理解と推論能力がさらに強化されました。これにより、参照画像の主要な特徴をより深く把握し、ユーザーの曖昧な指令をより正確に理解して、ユーザーの意図に沿ったコンテンツを生成できるようになります。同時に、主体の一貫性やテキスト・イメージの整合性など、生成面でのパフォーマンスも著しく進歩しました。
世界知識体系の強化:モデルには豊富な世界知識が内蔵されており、科学技術と人文分野の複数の垂直領域(ドメイン)の知識ベースを網羅しています。知識体系が強化されたことで、生成結果は物理法則により適合し、情報の可視化能力も大幅に向上しました。
リアルタイム検索で「脳」の限界を突破:モデルは時事的な生成ニーズに対してより効果的に応答でき、特にニュースポスターの生成などのシナリオに適しています。
総合評価において、Seedream 5.0 Lite の Elo スコアは Seedream 4.5 を上回っており、知識推論、編集への対応、一貫性の維持などの能力が顕著に向上しました。実際の導入現場における進歩は特に目覚ましいものです。現在、Seedream 5.0 Lite は「即夢 AI」および「火山方舟体験センター」で利用可能となり、「豆包(Doubao)」でもベータテストを開始しています。ぜひご体験とフィードバックをお待ちしています。
プロジェクトホームページ:
https://seed.bytedance.com/seedream5_0_lite
体験リンク:
1)即夢 Web 版 - 画像生成 - 「画像 5.0 Lite」を選択;
2)火山方舟体験センター - ビジュアルモデル - 画像生成 - Doubao-Seedream-5.0-lite。
命令に従うだけでなく、思考も理解する
ビジュアルコラボレーション体験がさらに進化
「知能」の大幅な向上により、Seedream の最新モデルはもはや受動的に指令を受け取る描画エンジンではなく、観察力・理解力・論理力を備えた専門的な創作アシスタントへと進化しました。以下が、Seedream 5.0 Lite のいくつかの基本的な活用方法です。
- 視覚推論による画像生成:多段階思考をサポートし、現実の法則に合致した生成を実現
Seedream 5.0 Lite は単なる「筆」ではなく、入力された画像と指示をまず「理解」し、その後に論理的に「描画」します。この特徴により、従来の画像生成モデルが苦手とする視覚的思考タスクを実行可能となり、多段階の推論をサポートして、生成結果が内面的な論理や物理法則に合致するようになっています。
例えば、Seedream は簡単な囲碁の推論も実行できるようになり、次の一手やその後の棋局を思考することが可能です。また、大量の散らかった部品に対して、ユーザーが部品の属性を明示しなくても、物体の種類を推論して相対的に合理的な組み立てを行うことができます。
プロンプト:囲碁対局、次の白石を打った後、この黒石を食べる。
プロンプト:図中のすべての部品を使って全体を拼接する。
- 情報可視化:世界知識と組み合わせ、効率的にプレゼンテーション用画像を生成
豊富な知識体系と深い推論能力を背景に、Seedream 5.0 Lite の情報可視化能力は大幅に向上し、オフィス業務・教育・科学研究などの生産性シーンで活用できます。
熱帯雨林の垂直群落構造の再現や石油地質断面図への注釈付け、あるいは数式に基づく図示など、Seedream は難解な概念を直感的で美しい情報グラフへと変換し、ユーザーの生産性を向上させます。
左図プロンプト:多彩な自然生態の画像。熱帯雨林の 4 つの垂直層(露生層、樹冠層、灌木層、地表層)を示す。
中図プロンプト:石油システムの情報グラフ(英語)。石油掘削プラットフォームと地質層を表示する。
右図のプロンプト:高校数学教材の挿絵、ある点における関数の導関数の幾何学的意味を可視化したもの。白色背景で、線は明確に描き、科学的かつ専門的に正確であること。
- 検索連動型生成:最新トレンドと連携し、創作を現在地に近づける
モデルの訓練データに含まれる時間的制約を打破するため、Seedream 5.0 Lite は強力なリアルタイム検索機能を導入しました。現在の天候状況に合わせた都市ポスターの作成から、世界の映画興行収入の要約、さらには金価格の推移グラフの描画に至るまで、すべてリアルタイム検索結果に基づき、現実的な論理に沿った内容を生成します。
検索機能は柔軟にオンオフを切り替え可能です。有効にするとモデルは最新トレンドに即座に対応し、内容は生き生きとします。無効にすれば創作がより安定し、必要に応じて切り替えるだけで済みます。
プロンプト:以下の地点における 2026 年 2 月 4 日の天気、気温、時刻を検索し、合成写真作品を作成してください。1.北京、2.ニューヨーク、3.東京、4.シドニー、5.マドリッド。
左図のプロンプト:2025 年の世界映画興行収入ランキング上位 3 位を参考に、未来的な科技感あふれる映画興行収入ランキングポスターをデザインしてください。文字はすべて英語を使用し、金額も明記すること。配置は可能な限り美しく、単調で退屈しないようにし、ネオンサインのような雰囲気を持たせ、見栄え良く、ポスターとして、大作のようであること。
右図のプロンプト:2 月 4 日から過去 7 日間の金価格(国内現物価格基準)を示す棒グラフを生成してください。具体的な数値と時間を表示し、休日は省略し、棒グラフの目盛りは正確に描くこと。また、モダンなグラスモーフィズム(Glassmorphism:すりガラスのような質感)UI カードとして作成すること。スタイル:すりガラス効果。視覚的要素:半透明でぼかされた背景、流れるような金色のグラデーションライン、柔らかい陰影、四隅に浮かぶ 3D の金貨アイコンによる装飾、そして柔らかなパステルカラーの光エフェクト。
- 精密なスタイル転送:1 回の操作で「共感覚」的に参考画像を解釈し、「芸術大作」を生成
文章では、芸術作品に潜む微妙な光影や筆致をすべて記述することは困難です。Seedream 5.0 Lite の多様なモダリティ(複数領域)間の理解能力の向上により、複雑なプロンプトを必死に考える必要はなくなりました。参考画像一枚で、モデルが瞬時にあなたの求めるスタイルを「共感覚」的に捉え、生成します。
ボヘミアン風の華やかなファッションから印象派の油彩画のような質感に至るまで、その神髄を正確に捉え、生成された画像に融合させることで、何気ない一枚の写真が芸術大作へと変貌します。
プロンプト:参考画像を基に、上記の画像をスタイル変換してください。
プロンプト:画像 1 の色調を画像 2 の色調に変更してください。
- 高次画像編集:曖昧な指示による精密な修正
理解力と思考能力の向上に伴い、Seedream 5.0 Lite はより高度な画像編集機能も習得しました。ユーザーが短く曖昧な指示を出すだけで、人間デザイナーのように背後にある意図を推測し、期待通りの効果を正確に実現します。
プロンプト:画像 1 から画像 2 への変化を参考にして、画像 3 を修正してください。
前世代モデルと比較して、Seedream 5.0 Lite の編集における制御性もさらに向上しました。局部の修飾や主体の置き換えを行う際にも、非編集領域の一貫性をより安定して維持し、ユーザーの要望通り「指した場所を修正する」ことが可能になります。
プロンプト:画面の照明効果を光斑(ボケ)に変更してください。
プロンプト:焦点を変更し、前景を鮮明に、人物をぼかす。
- 複雑な多主体生成:指示を正確に遵守し、各主体の属性を再現
Seedream 5.0 Lite は、基礎的な生成面でも進歩を遂げました。プロンプト内の詳細な指示をより鋭敏に捉え、複雑な空間関係や特定の物体の属性、あるいは抽象的な情緒的雰囲気であっても、これらを正確に解析して画像へと変換することができます。前バージョンと比較して、生成における「幻覚(ハルシネーション)」や「省略」がさらに減少しました。
例えば、最大で 9 つの主体を含む視覚画像において、Seedream モデルは依然として複雑な指示を遵守し、文字、時間、数字、色などの属性をすべて正確に再現しています。
プロンプト:3x3 の展示棚グリッド、正面からの平視視点。左上の区画:透明なガラスの立方体の中に、赤いバラが浮遊しているもの。中央上の区画:表面に文字'A'が彫られた木製の球体。右上の区画:青空を反射する金属製のピラミッド。左中の区画:金色の塗料で塗られた陶器製の猫。真ん中の区画:針が 10 時 10 分を指す透明な時計。右中の区画:整然と積み重ねられた緑色のエメラルド、数は正確に 6 つであること。左下の区画:燃えているろうそく、溶けたロウは青色で炎は緑色。中央下の区画:茶壺の中に植えられたサボテン。右下の区画:サングラスをかけた骸骨。高解像度、超写実的写真、スタジオライティング。
複数の人物主体が関わる複雑なシーンにおいても、Seedream は良好な生成結果を実現しています。例えば以下の画像では、モデルは内蔵された世界知識を参照し、5 人の芸術家による「モダンスタイル」の集合写真を撮像しました。彼らがさまざまな小道具とどのように相互作用しているかの自然な姿勢を呈示するだけでなく、推論を通じて対照的なシーンにおける人物たちの神髄を正確に再現しています。
プロンプト:5 人の芸術家が並んで立っており、人物には油彩画の質感を残しつつ、現代的な小道具は写真のようなリアルな表現とする。1)ヴァン・ゴッホ:白い VR ヘッドセットを装着し、両腕を盲目に空へ伸ばし、口を開けて驚嘆している。2)フリーダ・カロ:DJ テーブルに身を乗り出し、片手でヘッドフォンを押さえ、もう片の手で積極的にミキシングノブを回している。3)真珠の耳飾りの少女:ピンク色のハート型サングラスをかけ、余裕を持って珍珠奶茶(パールミルクティー)をすすっている。4)モナ・リザ:鮮やかな黄色のイヤホンを装着し、目を閉じて微かに頷きながら、片手でイヤーカップを軽く支え、音楽に合わせて体を揺らしている。5)サルバドール・ダリ:Switch を手に持ち、親指でジョイスティックをしっかりと握り込み、集中した表情でゲームに没頭している。
インテリジェンスの程度と専門性のレベルが向上したことに基づき、Seedream 5.0 Lite にはさらに多くの上級な活用方法があり、皆様に探索していただきたいと考えています。
Seedream 5.0 Lite レビュー
オフィス・学習シーンでの顕著な向上
Seedream 5.0 Lite は基礎能力の向上に留まらず、「実用化」と「生活化」への真の着実に焦点を当てています。そのため、能力テストにおいては、モデルの指示応答、画像とテキストの一貫性、総合的なパフォーマンスといった従来の指標だけでなく、知識推論、オフィス・学習、ビジネスマーケティング、映画・ゲーム、芸術創作、デザインなど、頻出する実用シーンを対象とした専門テスト項目も導入しました。
関連するレビューは MagicArena 競技プラットフォームを基盤に展開され、異なるモデル同士による二重盲検(ダブルブラインド)の対戦形式で採点を行いました。結果の客観性を確保するため、すべての評価は画像生成分野のベテラン評価専門家によって行われました。累計数万回の対戦データを収集・分析した上で、高い信頼度を持つ Elo ランキングを算出・出力しました。
その結果、前世代と比較して Seedream 5.0 Lite は、Elo 総合スコア、指示応答、編集の一貫性といった重要な基礎指標において顕著な進歩を遂げました。特に知識推論や人物像の強化などのシーンでは、より優れた理解力と実行力を示しました。実際の運用シーン、とりわけオフィス・学習の場面においては、モデルの思考能力が向上したことで、実際のパフォーマンススコアも大幅に引き上げられました。これは Seedream 5.0 Lite が単なる創造的な玩具ではなく、ユーザーの仕事や生活を支える頼れるアシスタントへと進化を遂げたことを意味します。
imageテキストから画像生成(Text-to-Image)のレビューパフォーマンス
image画像から画像生成(Image-to-Image)のレビューパフォーマンス
まとめと展望
マルチモーダル推論能力と世界知識の強化により、Seedream 5.0 Lite は「指示を実行する」段階から「意図を理解する」段階への飛躍を実現しました。これは画像生成における総合能力が大幅に向上したことを意味し、新たな、より効率的なインタラクション方式をもたらすことになります。今後、ユーザーは複雑なプロンプト(Prompt)の技巧を学ぶ必要がなくなり、モデルと創作意図について対話するだけで、効率的かつ高精度にテキストと画像の創作を完了できるようになるでしょう。
この転換により、画像生成モデルは「面白いもの」から「実用的なもの」へと進化し、より生産性の高いシーンに深く組み込まれるようになりました。アップグレードされた Seedream シリーズのモデルは、一般ユーザーにとって頼もしいアシスタントとなり、PPT の美化、チャートの生成、ポスター制作などを支援し、その実用性が大幅に強化されました。
Seedream 5.0 Lite は比較的小型のモデルであり、構造の安定性、リアリティ、美観の面ではさらに向上させる余地があります。今後は引き続きモデルのスケーリング(Scaling)を進め、Seedream シリーズの知能レベルと性能上限を高めるとともに、より多段階の対話型編集をサポートしていきます。本モデルが単にユーザーの創意を実現するだけでなく、創意を刺激する「第二の脳」として機能し、商業広告や芸術創作など、より難易度の高い創作シーンにおけるクリエイティブなサポートを提供することを願っています。
原文を読む
WeChat で開くにはこちらへ
原文を表示
原创 字节跳动Seed 2026-02-13 13:32 天津
image
理解、推理和生成全面提升
image
去年 9 月,我们发布统一编辑与生成的图像创作模型 Seedream 4.0,它融合了部分常识和一定的推理能力,受到不少用户的欢迎。
今天,我们推出 Seedream 5.0 Lite 智能图像创作模型。相比 4.0 版本,它在理解、推理和生成方面全面提升,是一个“更聪明”且“更专业”的视觉创意伙伴。
Seedream 5.0 Lite 带来的主要提升,不是更高的分辨率或更快的速度,而是贯穿在“读”“看”“画”“写”背后的深度思考。作为通向统一多模态模型的进一步探索,它开始能像人类设计师一样“理解”用户指令背后的意图,“看懂”不同画面中的规律,并将世界知识应用于图像与文本创作中。
在此基础上,我们还首次为 Seedream 模型引入实时检索增强能力,它可通过联网检索,获取最新的知识和资讯,更精准地回应具有时效性的创作需求。
Seedream 5.0 Lite 的核心亮点如下:
理解与生成表现全面提升:模型采用多模态统一架构,其跨模态理解和推理能力进一步提升。这使得模型能更深刻地把握参考图的主要特征,更准确地理解用户模糊的指令,从而生成更加符合用户意图的内容。同时,模型在主体一致性、图文对齐等生成方面的表现也显著进步。
世界知识体系增强:模型内置丰富的世界知识,覆盖科技与人文领域的多个垂类行业知识库。知识体系增强后,其生成结果更符合物理规律,信息可视化能力也大幅提升。
实时检索让“大脑”突破局限:模型可更有效地响应具有时效性的生成需求,尤其适合资讯海报生成等场景。
在综合评测中,Seedream 5.0 Lite 的 Elo 评分超越 Seedream 4.5,其知识推理、编辑响应与一致性保持等能力提升显著,在真实落地场景中进步尤为突出。现在,Seedream 5.0 Lite 已上线即梦AI、火山方舟体验中心,并在豆包开启内测,欢迎体验和反馈。
项目主页:
https://seed.bytedance.com/seedream5_0_lite
体验链接:
1)即梦网页端-图片生成-选择图片 5.0 Lite;
2)火山方舟体验中心-视觉模型-图片生成-Doubao-Seedream-5.0-lite。
不止听令,更懂所想
视觉协作体验再升级
得益于“智力”的大幅提升,Seedream 最新模型不再仅是一个被动接收指令的绘图引擎,而是进化为一个具备观察力、理解力和逻辑力的专业创作助手。以下是我们总结的 Seedream 5.0 Lite 的几种基础玩法:
- 视觉推理生图:支持多步思考,让生成符合现实规律
Seedream 5.0 Lite 不只是一支简单的“画笔”,它能先“看懂”输入的图像和指令,再符合逻辑地“画图”。这一特点,让 Seedream 可执行传统图像生成模型难以胜任的视觉思考任务,并支持多步推理,让生成结果符合内在逻辑与物理规律。
例如,Seedream 开始能完成简单的围棋推理,思考下一步落子和后续的棋局;面对大量散乱的零件,在用户未指出零件属性的情况下,它能推理出物体类型,并进行相对合理的组装。
Prompt:围棋对弈,下一个白子后,吃掉这个黑子。
Prompt:用图中所有的零件拼接成一个整体。
- 信息可视化:结合世界知识,高效生成演示配图
依靠丰富的知识体系和深度推理能力,Seedream 5.0 Lite 的信息可视化能力大幅提升,可用于办公、教育与科研等生产力场景。
无论是还原热带雨林的垂直群落结构,标注石油地质剖面,还是根据公式绘制展示图,Seedream 都能将晦涩的概念转化为直观、美观的信息图谱,提升用户的生产效率。
左图 Prompt:一张丰富多彩的自然生态图,展示热带雨林的四个垂直层次(露生层、树冠层、灌木层、地表层)。
中图 Prompt:一张英文石油系统信息图表,显示石油钻井平台和地质层。
右图 Prompt:高中数学教材插图,可视化函数在某一点的导数的几何意义,白色背景,线条清晰,科学专业准确。
- 联网检索生成:结合最新热点,让创作贴近当下
为打破模型训练数据的时间限制,Seedream 5.0 Lite 引入了强大的实时检索能力。无论结合当下天气情况生成城市海报,总结全球电影票房,还是绘制金价走势图,它都能基于实时检索结果,生成符合现实逻辑的内容。
检索功能可灵活开关,开启时模型紧跟热点、内容鲜活;关闭时创作更稳定,按需切换即可。
Prompt:搜索以下地点在 2026 年 2 月 4 日的天气、温度和时间:1.北京、2.纽约、3.东京、4.悉尼、5.马德里,合成摄影作品。
左图 Prompt:参考 2025 年全球票房排行榜前三名,设计一张充满未来科技感的电影票房排行榜,字体全部用英文,附上金额。排列尽量美观,避免单调无聊,霓虹灯感,好看,海报,大片。
右图 Prompt:请从 2 月 4 日起,生成最近七天的黄金金价柱状图(以国内现货计价,显示具体的数值&时间,非交易日略过,柱状图比例尺正确),一款时尚的玻璃拟态 UI 卡片。风格:磨砂玻璃效果。视觉元素:半透明模糊背景,流畅的金色渐变线条,柔和阴影,悬浮的 3D 金币图标点缀于四角,柔和的粉彩光效。
- 精准风格迁移:一键“通感”参考图,生成“艺术大片”
文字很难穷尽艺术作品中微妙的光影与笔触。得益于 Seedream 5.0 Lite 跨模态理解能力的提升,无需再绞尽脑汁写复杂的提示词,只需一张参考图,模型就能瞬间“通感”你要的风格。
不管是波西米亚式的华丽穿搭,还是印象派的油画质感,它都能精准捕捉神韵,融入生成图片,让随手一拍变成艺术大片。
Prompt:参考下图,将上图做风格转绘。
Prompt:把图 1 色调改成图 2 的色调。
- 高阶图片编辑:通过模糊指令,实现精准修图
随着理解和思考能力的提升,Seedream 5.0 Lite 也掌握了更高阶的图片编辑能力。即便用户只给出简短、模糊的指令,它也能像人类设计师一样推测背后意图,并精准实现预期效果。
Prompt:参考图 1 到图 2 的变化,修改图 3。
相较前代模型,Seedream 5.0 Lite 的编辑可控性也进一步提升。在局部修图或替换主体时,模型可更稳定地保持非编辑区域的一致性,按用户需求“指哪改哪”。
Prompt:将画面光影改为光斑。
Prompt:改变焦点,让前景清晰,人物虚化。
- 复杂多主体生成:精准遵循指令,还原不同主体属性
Seedream 5.0 Lite 在基础生成方面也取得了进步。它能更敏锐地捕捉 Prompt 中的细节指令,无论是复杂的空间关系、特定物体属性,还是抽象的情绪氛围,都能被精准解析并转化为画面。相比上一版本,其生成中的“幻觉”与“遗漏”进一步减少。
比如,在包含多达 9 个主体的视觉图中,Seedream 模型依然实现了对复杂指令的遵循,字母、时间、数字、颜色等属性均精准还原。
Prompt:一个 3x3 的展示架网格,正面平视视角。 左上格:一个透明的玻璃立方体,里面悬浮着一朵红玫瑰。 中上格:一个木制的球体,表面雕刻着字母'A'。 右上格:一个金属金字塔,表面反射出蓝色的天空。 左中格:一只陶瓷材质的猫,涂着金色的漆。 正中格:一个透明的时钟,指针指向 10 点 10 分。 右中格:整齐堆叠的六颗绿宝石,数量必须正好是六颗。 左下格:一根燃烧的蜡烛,蜡油是蓝色的,火焰是绿色的。 中下格:一个种在茶壶里的仙人掌。 右下格:一个戴着墨镜的骷髅头。 高清分辨率,超写实摄影,影棚光效。
在多人物主体的复杂场景中,Seedream 也实现了较好的生成效果。例如下图中,模型参考内置世界知识,生成了 5 位艺术人物的“现代风”合照:不仅自然呈现了他们与不同道具的互动姿态,还通过推理精准还原了人物在反差场景中的神韵。
Prompt:五位艺术人物并排站立,人物保留油画质感,现代道具呈现照片级真实感。1)梵高:佩戴白色 VR 头盔,双臂盲目伸向空中,惊叹张口。2)弗里达·卡罗:俯身 DJ 台,一手按压耳机,另一手积极转动混音旋钮。3)戴珍珠耳环的少女:粉色爱心太阳镜,从容啜饮珍珠奶茶。4)蒙娜丽莎:佩戴亮黄色耳机,闭目微颔,单手轻托耳罩,随音乐律动。5)萨尔瓦多·达利:手持 switch,拇指紧扣摇杆,神情专注沉浸游戏。
基于智能化程度与专业化水平的提升,我们相信,Seedream 5.0 Lite 还有很多进阶玩法,等待大家探索。
Seedream 5.0 Lite 评测
办公学习场景提升显著
Seedream 5.0 Lite 并非止步于基础能力提升,而是更加聚焦于“实用化”与“生活化”的真实落地。因此,在能力测试中,我们不仅评测了模型的指令响应、图文一致性、综合表现等传统指标,同时也引入了知识推理、办公学习、商业营销、影视游戏、艺术创作、设计等高频应用场景的专项测试题目。
相关评测依托 MagicArena 竞技平台展开,我们引入了不同模型进行双盲对战打分。为确保结果的客观性,所有评分均由图像生成领域的资深评测专家完成。基于累计采集的数万轮对战数据,我们计算并输出了高置信度的 Elo 排名。
结果显示,相较上一代版本,Seedream 5.0 Lite 在 Elo 综合评分、指令响应与编辑一致性等关键基础指标上均取得显著进步,特别是在知识推理、人像增强等场景,其展现出了更强的理解力与执行力。在真实场景中,尤其面向办公学习场景,伴随模型思考能力提升,模型实际表现得分大幅提升。这意味着 Seedream 5.0 Lite 不再仅是创意玩具,而是能走进用户工作与生活的得力助手。
image文生图评测表现
image图生图评测表现
总结与展望
跨模态推理能力和世界知识的增强,让 Seedream 5.0 Lite 实现了从“执行指令”到“理解意图”的跨越。这意味着图像生成综合能力的显著提升,也将带来新的、更高效的交互方式。未来,用户很可能不再需要学习复杂的 Prompt 技巧,通过与模型交流创作意图,即可高效精准地完成图文创作。
这一转变,也让图像生成模型从“好玩”走向“好用”,更多地融入生产力场景。升级后的 Seedream 系列模型,可以成为普通用户的得力助手,帮助美化 PPT、生成图表、制作海报,实用性显著增强。
Seedream 5.0 Lite 是一个较小的模型,在结构稳定性、真实感和美感方面还有进一步提升的空间。未来,我们将继续 Scaling 模型,提升 Seedream 系列模型的智能水平和效果上限,并将支持更多轮次的交互式编辑。希望它不仅能帮助用户实现创意,还能成为激发创意的“第二大脑”,为商业广告、艺术创作等更高难度的创作场景提供创意支持。
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み