Seed2.0 正式リリース
字节跳动は、大規模生産環境での使用に最適化されたマルチモーダル大規模言語モデル「Seed2.0」シリーズを正式にリリースし、複雑な文書理解や多段階タスク実行能力を強化し、研究レベルの推論タスクへの対応を目指すと発表した。
キーポイント
Seed2.0シリーズの正式リリース
字节跳动が開発したLLMモデルシリーズ「Seed」の最新版「Seed2.0」が正式にリリースされ、Pro、Lite、Miniの3サイズと専用Codeモデルが提供される。
マルチモーダル理解能力の大幅強化
複雑な文書、表、グラフ、動画コンテンツの解析能力が向上し、多くの視覚理解ベンチマークでSOTA(State-of-the-Art)レベルを達成した。
複雑な指示実行と推論能力の向上
多制約・多段階・長連鎖タスクの理解と実行能力が強化され、オリンピック競技レベルの問題から研究レベルの推論タスク(例:エルデシュ級数学問題)への対応が可能になった。
実運用シーンに基づく最適化
MaaSサービスにおける実際のユースケース分析に基づき、非構造化情報の処理や「多く読み、多く考える」タスクへの要求に対応するよう設計されている。
製品統合とAPI提供開始
Seed2.0 ProとCodeモデルはそれぞれ「豆包」アプリと「TRAE」ですでに利用可能で、全シリーズのAPIも「火山引擎」で提供されている。
長文脈理解の強化
Seed2.0はDUDE、MMLongBenchなどのベンチマークで業界最高スコアを達成し、長文脈理解能力が向上している。
ビデオシーン処理の高度化
時間シーケンスと運動知覚の理解能力を強化し、TVBench、TempCompass、MotionBenchなどの評価でリードし、EgoTempoでは人間のスコアを超えた。
影響分析・編集コメントを表示
影響分析
この発表は、中国AI業界におけるマルチモーダルLLMの実用化競争が新たな段階に入ったことを示している。特に、複雑な業務文書の理解と処理という企業の核心ニーズに直接応える能力を強調しており、B2Bおよび生産環境でのAI導入を加速させる可能性が高い。また、研究レベルの推論タスクへの挑戦は、汎用人工知能(AGI)に向けた技術的ロードマップの一端を示している。
編集コメント
企業の実業務ニーズ(特に非構造化文書処理)に焦点を当てた技術最適化と、研究レベルの推論能力への志向を両立させた戦略的なリリース。中国市場における実用LLM競争の重要なマイルストーンと言える。
オリジナル 字节跳动 Seed 2026-02-14 13:57 北京
現実世界の複雑なタスクを突破する
大規模言語モデル(LLM: Large Language Model)を駆使した製品は、すでに私たちの生活に深く根付いています。過去一年余りで Seed が開発した LLM モデルシリーズは、豆包など数億人のユーザーを抱える C 側面向け製品をサポートしてきました。同時に、エージェント(Agent)時代の到来に伴い、LLM は現実世界の複雑なタスクにおいてより大きな役割を果たすようになることに気づきました。例えば、科学研究への参画や複雑なソフトウェア開発の支援です。また、LLM は文脈に基づいて自ら学習し、経済的価値のある多様なタスクを完了することも可能になります。
この重要な転換点において、最新シリーズである Seed2.0 をご紹介します。Seed2.0 は大規模な生産環境における利用ニーズに合わせて体系的に最適化され、現実世界での複雑なタスク突破を支援することを目的としています。
Seed 汎用モデルが MaaS(Model as a Service)サービスでどのように利用されているかを分析した結果、最も割合の高い需要は、混在するチャートやドキュメントなどの非構造化情報を処理する知識コンテンツであることがわかりました。企業からは、まず「多くを読み込み、深く思考する」タスクをモデルに実行させた上で、複雑かつ専門的なプロセス型業務へと移行することを求める声が多く、モデルの長文理解能力と多段階タスク実行能力に対する要求は年々高まっています。
Seed 汎用モデル MaaS サービスにおける中国本土での利用シーン分布。データは「火山方舟コラボレーション報奨計画」より提供され、関連ユーザーはすでに授权契約に署名しています。
実際の使用シーンを踏まえ、Seed2.0 シリーズは以下の点を中心に最適化を行いました:
より堅牢な視覚・多モーダル理解:Seed2.0 は視覚的知覚と推論能力を強化し、複雑なドキュメント、表、図形、動画コンテンツの解析レベルが大幅に向上しました。視覚情報の処理はより精密に行われます。
より信頼性の高い複雑な指示実行:Seed2.0 は指示への従順性と推論パフォーマンスを向上させ、多様な制約条件、多段階、長連鎖タスクに対する理解と実行能力を強化しました。これにより、高価値タスクを支えるための基礎的能力を既に備えています。
より高速かつ柔軟な推論の選択肢:Seed2.0 は、Pro、Lite、Mini の 3 つの異なるサイズの汎用 Agent モデルと、専用の Code モデルを提供し、企業や開発者がさまざまなシナリオのニーズに合わせて選択できるようになっています。
生産レベルの要件への対応をさらに強化するだけでなく、Seed2.0 はモデルの知能の上限向上にも注力しています。現在、Seed2.0 はオリンピック競技のような問題の解決から、研究レベルの推論タスクのサポートへと進化を遂げています。具体的には、エ尔德什(Erdős)レベルの数学的問題への挑戦や、一部の科学関連タスクにおけるプログラミング作業の実行が可能となり、機械知能の境界をさらに突破しています。
Seed2.0 Pro と Code モデルはそれぞれ豆包 App および TRAE で利用可能となりました。同時に、Seed2.0 シリーズ全体のモデル API も火山エンジンで同步公開されましたので、ぜひご体験いただき、フィードバックをお寄せください。
プロジェクトホームページ(Model Card 含む):
https://seed.bytedance.com/zh/seed2
体験エントリーポイント:
1) 豆包 App - 「エキスパート」モードを選択して対話を開始;
2) TRAE - 「内蔵モデル」から「Doubao-Seed-2.0-Code」を選択。
多言語理解能力の包括的アップグレード
主要なベンチマークの多くで SOTA(State-of-the-Art)レベルを達成
Seed2.0 は多言語能力を全面的に強化し、あらゆる視覚理解タスクにおいて業界最高水準を達成しました。特にその視覚推論、知覚能力、空間推論、および長文脈理解能力の表現が際立っており、Seed2.0 Pro は関連する大半のベンチマークテストで最高得点を記録しています。
数学と視覚推論の分野において、Seed2.0 Pro は MathVista、MathVision、MathKangaroo、MathCanvas といった数学推論ベンチマークで業界最優位を達成しました。同時に、LogicVista や VisuLogic などの視覚パズルおよび論理推論ベンチマークにおいても、Seed2.0 Pro の得点は Seed1.8 から大幅に向上しています。
*印のデータは公開技術報告より引用
Seed2.0 の視覚知覚能力もさらに進化しました。VLMsAreBiased、VLMsAreBlind、BabyVision などのベンチマークにおいて Seed2.0 は業界最高得点を記録しており、これは異なる種類の視覚入力に対しても、正確かつ信頼性の高い知覚と判断能力を維持できることを示しています。
*印のデータは公開技術報告より引用
視覚理解の基礎能力の向上により、Seed2.0 は実社会での応用シーンにおけるパフォーマンスを大幅に向上させました。ドキュメント理解においては、モデルが直面するのは標準的なデータ入力ではなく、複雑なレイアウトが混在する生データであることがほとんどです。Seed1.8 と比較して、Seed2.0 の非構造化情報処理能力は著しく強化されており、ChartQAPro および OmniDocBench 1.5 のベンチマークにおいてトップクラスのモデル水準を達成しています。
同時に、長文脈理解の分野においても、Seed2.0 は DUDE や MMLongBench などのランキングで業界最高スコアを記録しました。
*印のデータは公開技術報告書より引用
動画シーンにおいては、Seed2.0 は時系列および運動知覚の理解能力を強化しており、TVBench、TempCompass、MotionBench などの主要な評価項目で先導的な位置を占めています。さらに EgoTempo ベンチマークでは人間を上回るスコアを記録し、「変化」「動作」「リズム」といった情報の捕捉がより安定していることを示しています。これは実装上の有用性が高いことを意味します。
*印のデータは公開技術報告書より引用
長尺動画のシーンにおいては、Seed2.0 はほとんどの評価項目で他のトップクラスモデルを上回っています。数時間規模の長尺動画を効率的かつ正確に処理することが可能であり、さらに動画ツール「VideoCut」によって長尺動画処理の対象範囲が拡大し、推論精度も向上しました。動画が長く情報が複雑な企業の実際の導入シーンにおいて、Seed2.0 は動画からの重要な情報を迅速に捕捉し、下流の意思決定に資する結論を正確に出力することができます。
同時に、Seed2.0 は複数のストリーミングリアルタイム Q&A 動画ベンチテストにおいても優れたパフォーマンスを発揮しており、AI アシスタントとしてリアルタイムの動画ストリーム分析、環境知覚、能動的なエラー修正、そして感情的な伴走を実現します。これにより、受動的な質問応答から能動的な指導へのインタラクションがアップグレードされ、フィットネスやファッションコーディネートなどの伴走シーンに応用可能です。
*印のデータは公開技術報告書より引用
LLM と Agent のパフォーマンスが大幅に強化
実社会における長期的なタスク実行能力の向上
Seed チームは、典型的な不均衡を観察しました。言語モデルはすでに競技レベルの難問を解決できるようになっていますが、現実世界においては、一度に設計が精巧で機能も完全な小プログラムを構築するなど、実務的なタスクをエンドツーエンドで完遂するのは依然として困難です。
LLM と Agent がなぜ現実問題に対処する際にたびたび行き詰まるのか。その原因は主に二点にあると考えられます。
第一に、現実世界のタスクはより長い時間スケールにまたがり複数の段階を含んでいますが、既存の LLM Agent は効率的なワークフローを自律的に構築することが難しく、長時間にわたる経験の蓄積も困難です。
第二に、現実世界における知識には強い分野ごとの壁があり、かつロングテール分布を示しています。各業界の専門的知見は訓練データに含まれる頻出語彙の領域には存在しないため、たとえモデルが数学やコード処理に優れていても、専門的な場面においてはその価値が限定的になりがちです。
Seed2.0 はまず、体系的なロングテール分野知識の強化によってこの課題に対処します。Seed2.0 Pro は SuperGPQA において GPT-5.2 を上回るスコアを記録し、HealthBench では首位を獲得しました。科学分野における総合的な成績は Gemini 3 Pro や GPT-5.2 と同等の水準を維持しています。
さらに、Seed2.0 Pro は学際的知識の応用能力が著しく強化されており、FrontierSci などの STEM ベンチマークテストで顕著な成果を示し、一部のシナリオでは Gemini 3 Pro を上回る得点を記録しました。同時に、ICPC(国際大学生プログラミングコンテスト)、IMO(国際数学オリンピック)、CMO(中国数学オリンピック)の各テストにおいて金メダルを獲得しており、モデルが数学、コード、推論能力においてさらに向上したことを示しています。
Seed2.0 はまた、指示遵守能力の強化に重点を置いています。関連する評価結果では、Seed2.0 が高い一貫性と制御性を維持できることが示されており、これが Agent モデルとして長距離・多段階タスクにおいて厳密な制約条件に従って実行するための基盤となっています。
基礎的な Agent 能力のスコアを見ると、Seed2.0 は長距離タスクにおいて顕著な成果を示しており、特に「資料調査」「要約归纳」「結論作成」といった連続するワークフローを次々と完遂することに優れています。深層研究タスクにおいては、Seed2.0 Pro が関連する三つの評価項目すべてで最高得点を記録し、研究型タスクにおける推進力と安定性を示しています。
複雑なエージェント(Agent)能力の評価において、Seed2.0 は業界の第一梯隊レベルに達しています。例えば、直接的な経済価値を持つ現実タスクの評価では、カスタマーサポートの質問応答、情報抽出、意図認識、小中学校段階の問題解答といった頻繁なユーザーシナリオにおいて安定したパフォーマンスを発揮します。また、GDPVal-Diamond や XPert Bench などの複雑な専門タスクベンチマークにおいても、競争力のある結果を達成しており、長連鎖かつ多制約のクエリタスクにも対応できることを示しています。
同時に、Seed2.0 Pro は FrontierSci‑research などの最先端科学研究ベンチマークにおいて強力なパフォーマンスを示し、AInstein Bench では首位を維持しています。これは科学発見のシナリオにおいて、仮説駆動型の推論能力が優れていることを示しています。
さらに、Seed2.0 は「研究アイデア」を「実行可能な実験計画」へと具体化することも可能です。
ゴルジ体タンパク質分析の例を挙げると、単に全体的な実験ルートを提供するだけでなく、遺伝子工学、マウスモデル構築、亜細胞分離、多オミクス解析といった要素を一つの完全なフローとして結びつけます。さらに、重要な工程での具体的な手法や、汚染を排除するための対照設定、純度を評価するための指標などまで詳細に記述します。関連分野の専門家は、Seed2.0 が提供する計画は、学際的な実験の詳細と手順化された表現において、大規模モデルに対する彼らの期待を超えていると評価しています。その回答は戦略レベルにとどまらず、構造が明確で科学的に相対的に信頼性があり、実行可能な実験草案を生成するものです。
長期的なタスク実行能力を向上させる一方で、Seed2.0 は推論コストもさらに低減しました。そのモデル性能は業界トップクラスの大型言語モデルに匹敵する一方、トークン(token)の価格設定は約 1 つオーダー低下しています。現実世界の複雑なタスクにおいては、大規模な推論や長連鎖生成により大量のトークンを消費するため、このコスト優位性がより重要となります。
*評価ベンチマークの詳細および Seed2.0 のその他の実用例については、モデルの Model Card をご参照ください。
まとめと展望
企業とユーザーの実際のニーズおよび使用シーナリオに対応するため、私たちは一連の評価ベンチマークを厳選・構築し、大型言語モデル向けの評価体系を構築しました。
この信頼性が高く先見的な評価体系を基盤に、Seed2.0 は多様なモダリティ(マルチモーダル)の理解と推論能力を強化し、ロングテール知識や複雑な指示の遵守に関する課題の解決に取り組むことで、複雑で長期間にわたる現実タスクにおけるモデルの信頼性を高めています。実際の応用シーンでの評価において Seed2.0 は優れたパフォーマンスを発揮し、業界トップティアの水準に達しており、科学研究レベルのタスクをサポートする可能性も既に示しています。
同時に、Seed2.0 はエンドツーエンドのコード生成やコンテキスト学習(文脈学習)においても顕著な進歩を遂げましたが、一部の難易度の高いベンチマークにおいては、国際的な最先端モデルと比較するとまだ改善の余地があります。今後は、実際のシーンに焦点を当てて Seed 言語モデルを継続的に迭代し、その知能の上限を不断に引き上げていきます。
原文を読む
WeChat で開くにはこちらへ
原文を表示
原创 字节跳动Seed 2026-02-14 13:57 北京
image
突破真实世界复杂任务
image
大语言模型驱动的产品已深刻融入我们的生活。过去一年多,Seed 开发的 LLM 模型系列已支持豆包等拥有上亿用户的 C 端产品,同时,我们也注意到,随着 Agent 时代到来,LLM 将在现实世界的复杂任务中发挥更大作用:比如参与科学研究,支持复杂软件开发,LLM 甚至可以基于上下文自主学习,完成各类具有经济价值的任务。
在这个关键节点,我们很荣幸地介绍最新 Seed2.0 系列,它们围绕大规模生产环境下的使用需求做了系统性优化,旨在帮助突破真实世界中的复杂任务。
通过分析 Seed 通用模型在 MaaS 服务中的调用情况,我们发现,最高比例的需求为处理混杂图表、文档等非结构化信息的知识内容,企业往往要求模型先做“读得多、想得多”的任务,再进入复杂且专业的流程型工作,对模型的长内容理解和多步任务执行能力要求越来越高。
Seed 通用模型 MaaS 服务在中国大陆的调用场景分布,数据来自“火山方舟协作奖励计划”,相关用户已签署授权协议
基于真实使用场景,Seed2.0 系列重点在以下方面进行了优化:
更稳健的视觉与多模态理解:Seed2.0 强化了视觉感知与推理能力,对复杂文档、表格、图形、视频内容的解析水平显著提升,视觉信息处理更精准。
更可靠的复杂指令执行:Seed2.0 提升了指令遵循和推理表现,并强化了对多约束、多步骤、长链路任务的理解与执行能力,已具备支撑高价值任务的能力基础。
更快速、更灵活的推理选择:Seed2.0 提供 Pro、Lite、Mini 三款不同尺寸的通用 Agent 模型,以及专门的 Code 模型,覆盖不同的场景需求,供企业和开发者选择。
除了更好地支持生产级需求,Seed2.0 还致力于提升模型智能上限。目前,Seed2.0 已能从解决奥林匹克竞赛类问题迈向支持研究级的推理任务。比如,Seed2.0 可尝试探索埃尔德什级别的数学问题,也可完成部分科学相关任务的编程工作,进一步突破机器智能的边界。
Seed2.0 Pro 和 Code 模型已分别在豆包 App 和 TRAE 上线,同时,Seed2.0 全系列模型 API 已同步上线火山引擎,欢迎大家体验、反馈。
项目主页(含Model Card):
https://seed.bytedance.com/zh/seed2
体验入口:
1)豆包App-选择“专家”模式-开启对话;
2)TRAE-在“内置模型”中选择“Doubao-Seed-2.0-Code”。
多模态理解能力全面升级
大部分基准达 SOTA 水平
Seed2.0 全面升级了多模态能力,在各类视觉理解任务上均达到业界顶尖水平,其视觉推理、感知能力、空间推理与长上下文理解能力表现尤为突出,Seed2.0 Pro 在大多数相关基准测试中取得了最高分数。
在数学与视觉推理方面,Seed2.0 Pro在 MathVista、MathVision、MathKangaroo、MathCanvas 等数学推理基准上达到业界最优水平。同时,在 LogicVista、VisuLogic 等视觉解谜与逻辑推理基准上,Seed2.0 Pro 得分较 Seed1.8 显著提升。
标注 * 的数据引自公开技术报告
Seed2.0 的视觉感知能力进一步升级。在 VLMsAreBiased、VLMsAreBlind、BabyVision 等基准中,Seed2.0 取得了业界最高分,说明它在面对不同类型的视觉输入时,仍能保持准确且可信的感知和判断能力。
标注 * 的数据引自公开技术报告
视觉理解基础能力的进步,让 Seed2.0 在真实应用场景中的表现大幅提升。在文档理解中,模型面对的往往不是标准的数据输入,而是复杂版式混排的原始材料。相比 Seed1.8,Seed2.0 处理非结构化信息的能力显著强化,其在 ChartQAPro 与 OmniDocBench 1.5 基准上达到顶尖模型水准。
同时,在长上下文理解方面,Seed2.0 在 DUDE、MMLongBench 等榜单上均取得业界最佳分数。
标注 * 的数据引自公开技术报告
面对视频场景,Seed2.0 强化了对时间序列与运动感知的理解能力,在 TVBench、TempCompass、MotionBench 等关键测评中处于领先位置,且在 EgoTempo 基准上超过了人类分数,表明它对“变化、动作、节奏”这类信息的捕捉更为稳定,在工程侧可用性更高。
标注 * 的数据引自公开技术报告
长视频场景中,Seed2.0 在大部分评测上超越了其他顶尖模型。其可以高效准确地处理小时级别的长视频,此外,视频工具 VideoCut 进一步提高了长视频处理的时长范围,并提升了推理精度。在视频长、信息杂的企业真实部署场景中,Seed2.0 可帮助快速捕捉视频关键信息,准确地输出用于下游决策的结论。
同时,Seed2.0 在多个流式实时问答视频基准测试中表现优异,能作为 AI 助手完成实时视频流分析、环境感知、主动纠错与情感陪伴,实现从被动问答到主动指导的交互升级,可应用于健身、穿搭等陪伴场景。
标注 * 的数据引自公开技术报告
LLM 与 Agent 表现大幅强化
真实长程任务执行能力提升
Seed 团队观察到一个典型失衡:语言模型已经可以顺利解决竞赛难题,但放在真实世界中,它们依然很难端到端地完成实际任务——比如一次性构建一个设计精良、功能完整的小程序。
LLM 和 Agent 为什么在处理现实问题时屡屡碰壁?我们认为,原因主要来自两点:
真实世界任务往往跨越更长时间尺度、包含多个阶段,而现有 LLM Agent 难以自主构建高效工作流,并在长时间跨度中积累经验;
真实世界知识具有很强的领域壁垒且呈长尾分布,各行业的经验不在训练语料的高频区,导致即便模型擅长数学与代码,其在专业场景中往往价值有限。
Seed2.0 首先通过系统性加强长尾领域知识来应对这一难题。Seed2.0 Pro 在 SuperGPQA 上分数超过 GPT-5.2,并在 HealthBench 上拿到第一名,其在科学领域的整体成绩与 Gemini 3 Pro 和 GPT-5.2 保持相当水平。
此外,Seed2.0 Pro 在跨学科知识应用上的能力显著增强,其在 FrontierSci 等 STEM 基准测试中表现突出,部分场景得分超过 Gemini 3 Pro。同时,Seed2.0 Pro 在 ICPC、IMO、CMO 测试中均获得金牌成绩,说明模型在数学、代码及推理智能方面进一步提升。
Seed2.0 还重点强化了指令遵循能力。相关评测显示,Seed2.0 可保持较强的一致性与可控性,这为其作为 Agent 模型在长链路、多步骤任务中严格按约束条件执行奠定基础。
从基础 Agent 能力的得分来看,Seed2.0 在长链路任务中表现突出,尤其擅长连续完成“找资料、做归纳、写结论”等连续工作流。深度研究任务中,Seed2.0 Pro 在相关的三项评测上均取得最高分,展现出在研究型任务里的推进能力与稳定性。
在复杂 Agent 能力评估中,Seed2.0 达到业界第一梯队水平。比如,在具备直接经济价值的现实任务评测中,Seed2.0 在客服问答、信息抽取、意图识别、中小学阶段问题解答等高频用户场景上表现稳定;在 GDPVal-Diamond、XPert Bench 等复杂专业任务基准上,模型同样取得了有竞争力的结果,说明它可以胜任长链路、多约束查询任务。
同时,Seed2.0 Pro 在 FrontierSci‑research 等前沿科研基准上表现强劲,并在 AInstein Bench 上领先,体现出在科学发现场景中较强的假设驱动式推理能力。
此外,Seed2.0 还能把“研究想法”推进到“形成可落地的实验方案”。
以高尔基体蛋白分析为例,它不仅能给出总体实验路线,还能把基因工程、小鼠模型构建、亚细胞分离与多组学分析串成一条完整流程,细化到关键环节怎么做、用什么进行对照以排除污染、用哪些指标评估纯度。相关领域专家表示,Seed2.0 给出的方案,在跨学科的实验细节与步骤化表达上,超出了他们对大模型的预期,其回答不止停留在策略层面,而是能产出结构清晰、科学上相对可靠,且具有可执行性的实验草案。
在提升了长程任务执行能力的同时,Seed2.0 还进一步降低了推理成本。其模型效果与业界顶尖大模型相当,同时 token 定价降低了约一个数量级。在现实世界的复杂任务中,由于大规模推理与长链路生成将消耗大量 token,这一成本优势将变得更为关键。
*关于评测基准的详细介绍,以及 Seed2.0 的更多真实用例,可以参见模型 Model Card。
总结与展望
针对企业与用户的真实需求及使用场景,我们筛选和搭建了一系列评测基准,用于构建适用于大语言模型的评估体系。
依托这套可靠且具有前瞻性的评估体系,Seed2.0 强化了多模态理解与推理能力,并致力于解决长尾知识与复杂指令遵循问题,从而提升模型在复杂、长周期现实任务中的可靠性。在针对真实应用场景中的评测中,Seed2.0 表现出色,达到业界第一梯队水平,且已表现出支持科学研究级任务的潜力。
同时,我们也观察到,Seed2.0 在端到端整体代码生成、上下文学习方面取得了明显进步,不过在部分高难基准上,其与国际领先模型相比仍有提升空间。未来,我们将继续面向真实场景迭代 Seed 语言模型,不断提高其智能上限。
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み