汎用エージェントモデルSeed1.8が正式リリース
字节跳动は、検索・コード生成・GUI 操作を統合した汎用エージェントモデル「Seed1.8」を正式に発表し、複雑な実世界タスクにおける実行能力と効率性を大幅に向上させた。
キーポイント
多機能統合型エージェントの実現
検索、コード生成、GUI 操作の 3 つの主要機能を単一のモデルに統合し、視覚入力を通じて界面と直接対話できる「見る」能力を備えている。
業界トップクラスのベンチマーク性能
GUI エージェントタスクや検索タスク(BrowseComp-en で 67.6 点)において Gemini-3-Pro などの競合モデルを上回る成績を記録し、複雑な指令遵循能力も強化された。
実世界応用での高い信頼性
金融・商業タスク(FinSearchComp, XpertBench)や旅行計画(WorldTravel 47.2 点)など、経済価値の高い現実世界のシナリオで安定して動作することが検証された。
効率的な推論と思考モード
タスクの複雑さに応じて自動調整する 3 つの思考モードと、画像エンコーディングの最適化により、高い知能を維持しつつ低遅延で高速に回答できる。
世界旅行計画の高度な最適化
Seed1.8 は予算や時間、個人の嗜好などの複雑な制約条件を考慮し、複数の情報源を統合して最適な旅行プランを自動生成できる。
LLM 能力が業界トップレベルに到達
数学・推論・知識理解の基礎能力および複雑な指令遵循において、Seed1.8 は業界最高峰のモデルと同等かそれ以上の安定した性能を示す。
多模態評価で前世代を大幅上回る
画像・3D 空間理解や動画推論などにおいて Seed1.5-VL を凌駕し、特に難易度の高いテストでは Gemini-3-Pro に迫る成果を収めた。
影響分析・編集コメントを表示
影響分析
この発表は、大規模言語モデルが「提案する」段階から「実行する」段階へと移行する重要な転換点を示しています。特に GUI エージェント能力の強化と、実世界タスクでの高いスコアは、AI が実際の業務フローやユーザー操作を直接代行できる時代への道を開くものであり、開発者やエンドユーザーにとって即座に活用可能な技術的飛躍と言えます。
編集コメント
単なるチャットボットの域を超え、実際に画面を操作してタスクを完遂できる「実行型 AI」としての成熟度が明確に示されたニュースです。特に GUI エージェントとしての性能向上は、業務自動化の実現に向けた大きな一歩となります。
オリジナル 字节跳动 Seed 2025-12-18 12:11 北京
検索、コード、GUI Agent 機能を一体化
大規模モデルのタスク範囲が拡大するにつれ、私たちはユーザーニーズが提案の取得や情報の照会から、モデルに直接複雑なワークフローを実行させる方向へシフトしていることに気づきました。これは、汎用モデルが既存の言語生成の枠を超え、より広範な能力を備える必要があることを意味します。
このような背景のもと、私たちは多様なモダリティに対応する強力な能力を備えた汎用 Agent モデル「Seed1.8」を正式に発表しました。画像とテキストの入力をサポートし、情報検索、コード生成、GUI 操作、複雑なワークフローなどのシナリオにおいて効率的かつ正確にタスクを完了させることで、日益に多様化する技術ニーズに応えます。
以下が Seed1.8 の3つの主要な特徴です:
汎用 Agent モデル:Seed1.8 は検索、コード、GUI Agent 機能を一体化しており、ネイティブの基盤となる視覚能力により「見て」インターフェースと直接対話することができます。
低遅延・高効率応答:Seed1.8 は3つの思考モードをサポートし、タスクの複雑さに応じて処理方法を自動的に調整します。また、画像エンコーディングに必要なトークン数を最適化し、知能を損なうことなく推論効率を大幅に向上させました。
現実世界のニーズへの対応:Seed1.8 に対して厳格なシミュレーションによる実ワークフロー評価テストを実施した結果、広範なニーズを持つ情報検索、意図認識、複雑な指示の遵守などのシナリオにおいて良好なパフォーマンスを示しました。
私たちが構築した現実ニーズを指向する内部評価体系と公開ベンチマークを組み合わせ、Seed1.8 に対する包括的かつ体系的な能力テストを実施し、完全な結果は Model Card をご覧ください。以下では、Seed1.8 の汎用 Agent、LLM(大規模言語モデル)、VLM(視覚言語モデル)における主要な能力項目ごとのパフォーマンスについてそれぞれ紹介します。
プロジェクトホームページ(Model Card 含む):
https://seed.bytedance.com/seed1_8
体験エントリー:
火山エンジン公式サイト-大規模モデル-豆包大規模モデル-豆包大規模モデル1.8-今すぐ体験
Seed1.8 汎用 Agent 能力
多様な実タスクで検証済み
複数のベンチマークテストにおいて、Seed1.8 は汎用 Agent モデルとしての強力なポテンシャルを示し、特に GUI Agent、検索、業界応用などのタスクにおいて優れたスコアを達成しました。
Agent 能力の難しさは多層的に現れます:
マルチタスク並列処理:モデルは複数のタスク間で判断を下し、計算資源を効率的に割り当て、各タスクの実行品質を保証する必要があります。
複雑な指示の遵守:複数の制約条件を扱う必要があるタスクでは、モデルは複雑な指示を迅速かつ正確に理解して実行しなければなりません。
ドメイン横断知識転移:モデルは異なる分野間で切り替わり、完璧にタスクを実行する必要がありますが、これには強力な跨領域知識と推論能力が求められます。
Seed1.8 は上記の難点においてすべて突破を遂げました。評価結果によると、同モデルは業界をリードする GUI エージェント能力を備えており、Seed1.5-VL よりもさらに向上し、パソコン、ウェブ、モバイルの 3 つの環境において、異なるシステムやインターフェースで多段階タスクを実行する信頼性を示しています。
Seed1.8 は検索タスクにおいても同様に目覚ましい成果を収めており、複数の公開エージェント検索評価ベンチマークにおいて業界トップクラスの水準を維持しています。例えば BrowseComp-en ベンチテストでは 67.6 という高得点を記録し、Gemini-3-Pro など他の最高峰モデルをも上回っています。
アスタリスク(*)付きのデータは公開技術報告書から引用したものです。番号 1 付きのデータは公式総合スコアから引用したものです。
Agentic Coding(エージェント型コーディング)関連の評価ベンチマークにおいて、Seed1.8 は現実的なソフトウェアエンジニアリングシナリオにおける安定した能力を示しました。これは Seed1.8 が単なるコード生成に留まらず、実際の開発環境でタスクを継続的に推進できるエージェントとしてのプログラミング能力を備えていることを意味し、複雑な工程シナリオでの応用に向けた基盤となっています。
アスタリスク(*)付きのデータは公開技術報告書から引用したものです。
顕著な経済的価値を持つ現実的な応用タスクにおいても、Seed1.8 のパフォーマンスは注目に値します。
FinSearchComp と XpertBench の評価によると、同モデルは金融・商業関連タスクの処理において相対的に安定しており効率的です。さらに Seed1.8 は WorldTravel という多モーダル応用タスクで 47.2 のスコアを記録し、旅行計画やユーザーニーズ分析といった実際のシナリオにおける要求に対して信頼性があることを示しています。
WorldTravel 関連のスコアは、5 回の試行のうち最良の得点を採用します。
図に示す通り、Seed1.8 は予算が限られた家族のためにベルリン旅行の行程を策定しました。これは旅行プラットフォーム、予約サイト、レストランメニューなど多様な情報を統合し、優れた推論能力と視覚解釈能力を活用して、すべての制約条件を満たす旅行計画を迅速に生成したものです。
上記の事例において、Seed1.8 は予算や時間といった基本条件に基づいて推奨を行うだけでなく、ユーザーの具体的な嗜好(例えば食事の味付けや宿泊環境など)にも対応し、行程を精密に調整します。インテリジェントな推論と制約最適化を通じて、モデルは複数の次元からの情報を自動的に統合し、完全かつ実需に合致した旅行計画を生成しました。これは、複雑な意思決定とパーソナライズされたカスタマイズにおけるその能力を示しています。
LLM 能力評価結果
トップレベルの汎用モデルに匹敵する水準
複数の公開大規模言語モデル(LLM: Large Language Model)ベンチマークにおいて、Seed1.8 は安定した競争力のあるパフォーマンスを維持し、業界の第一梯隊に位置しています。
数学、推論、知識理解といった核心的な基礎能力の次元において、その全体水準は業界トップクラスの汎用モデルに近づいています。
アスタリスク(*)付きのデータは公開技術報告書から引用したものです。
複雑な指示従属に関するベンチマークにおいて、Seed1.8 は安定した実行能力を示しました。此类タスクには通常、多重制約や逆条件、長距離推論が含まれており、モデルが多段階の実行プロセスを通じて指令目標を正確に理解し続けることが求められます。結果を見ると、Seed1.8 は複数の複雑な指示ベンチにおいて、業界をリードするモデルとほぼ同等の水準を維持しています。
アスタリスク(*)付きのデータは公開技術報告書から引用したものです。
これを基盤として、Seed1.8 はさらに能力検証を、教育指導、カスタマーサポートの質問応答、情報処理、意図認識、情報抽出、そして多段階の複雑なワークフローなど、真の専門家によって定義され明確な経済的価値を持つアプリケーションシナリオへと拡張しました。これにより、モデルが実際の使用環境において適用可能であることが検証されました。
VLM 多モーダル評価結果
スコアが大幅に向上し、顕著なパフォーマンスを発揮
Seed1.8 は複数の視覚言語ベンチマークテストにおいて優れた成果を収め、多モーダル推論タスクにおいては前世代モデルの Seed1.5-VL を上回り、多くのタスクで現在最も先進的な Gemini-3-Pro に迫る性能を示しました。
画像理解能力
Seed1.8 は画像の視覚的理解タスクにおいて良好なパフォーマンスを発揮します。多モーダル推論系タスクでは、極めて困難とされる視覚推理テストである ZeroBench において最高得点の 11.0 を記録し、前世代の Seed1.5-VL と比較して正答数が大幅に増加しました。
*印のデータは公開技術報告書より引用
一般的な視覚質問応答タスクでは、Seed1.8 は VLMsAreBiased ベンチマークテストで 62.0 のスコアを記録し、他モデルを大きく引き離しました。
*印のデータは公開技術報告書より引用
Seed1.8 は 2D および 3D 空間理解に関する複数のベンチマークテストにおいて優れた成果を収めています。特に 3D 空間理解や複雑なタスク、そして動的かつ複雑なデータセットにおける処理においては、高い適応性と推論能力を発揮します。
注釈 * のデータは公開技術報告から引用されています
ビデオ理解能力
Seed1.8 はビデオ理解分野において顕著な成果を収めており、特にビデオ推論、運動と知覚、長編ビデオの理解といったタスクにおいて、高い適応性を示しています。
動的シーンやリアルタイム知覚タスクにおいては Seed1.8 がトップクラスに位置し、複雑な知覚タスクにおけるモデルの能力、とりわけリアルタイム情報の処理における効率性の高さを示しています。
注釈 * のデータは公開技術報告から引用されています
Seed1.8 は長編ビデオ理解タスクにおいて特に優れたパフォーマンスを発揮しており、例えば VideoMME では 87.8 という高いスコアを記録しました。長編ビデオの理解には通常、複雑な時間的跨度、状況の変化、長時間にわたる文脈に基づく多段推論が伴います。Seed1.8 は「VideoCut」というビデオツール呼び出し機能を追加し、特定のシーンをスローモーションで再生して振り返ることで、より精密な長編ビデオの推論と高フレームレートの運動知覚を実現しています。
注釈 * のデータは公開技術報告から引用されています。注釈 ‡ のデータは評価時に字幕情報を含めて算出されています
ビデオ処理において、Seed1.8 は Token Efficiency(トークン効率性)を大幅に向上させることに成功しました。これにより理解能力が強化されるだけでなく、ユーザーにはより低遅延なリアルタイムビデオ処理体験を提供できるようになります。
複数の長編ビデオベンチマークにおいて、Seed1.8 は Max Video Token(最大ビデオトーク数)の設定をさらに低く抑えながら、Seed1.5-VL よりも優れたパフォーマンスを達成しています。
さらに Seed1.8 は、さまざまな Thinking Modes(思考モード)を導入することで、思考の深さを動的に調整する機能を組み込みました。ユーザーはタスクごとの異なるニーズに応じて、モデルの推論深度と計算負荷を柔軟に調整することができます。
Seed1.8 と他モデルの、異なる多モーダル推論ベンチマーク(Benchmark)における推論コストと精度の比較
未来展望
Seed1.8 を基盤として、私たちは全能型エージェントモデルの継続的な迭代(イテレーション)に取り組んでいきます。これは、現実世界の複雑なタスクにおける課題を解決するためです。今後、私たちは以下の方向性で継続的に取り組みを進めていきます。
スケーリング(Scaling)を継続し性能を向上させます。より強力な計算資源(コンピュートリソース)のサポートを通じて、モデルのパフォーマンスを事前学習および事後学習の両段階でさらに高め、日益に複雑化するタスクニーズに対応します。
長期タスクの実行能力を強化し、長時間の文脈処理とエージェントメモリ(記憶機構)の最適化を推進します。これにより、モデルは長期タスクや跨ステップ推論をより効率的に処理できるようになります。
モデルを実際のシナリオで不断に磨き上げます。現実の仕事や生活のシーンに関連する訓練データを継続的に拡張し、Seed モデルが変化する実際のニーズに真に適応できるようにします。
知能の境界を拡大します。私たちは Seed モデルにおける人間知能の境界に関する自主的な探求能力をさらに向上させ、より高次なエージェント能力の基盤を築きます。
同時に、私たちが考えるには、現実のニーズを指向した評価体系(ベンチマーク)を構築することは、エージェントモデルの安定性、汎化性、および可用性を向上させる上で大きな助けとなります。Seed1.8 の開発のために一部構築された評価用データセットは既にオープンソース化されているか、あるいは今後オープンソース化される予定です。これによりコミュニティ全体の共同発展を推進したいと考えています。
原文を読む
WeChat で開くにはこちらへ
原文を表示
原创 字节跳动Seed 2025-12-18 12:11 北京
集搜索、代码与 GUI Agent 能力于一体
随着大模型任务范围不断扩展,我们注意到,用户需求正从获取建议、查询信息,转向让模型直接执行复杂工作流。这意味着,通用模型必须具备更广泛的能力,超越现有语言生成的范畴。
在此背景下,我们正式推出通用 Agent 模型 Seed1.8,它具备强大的多模态能力,支持图文输入,能在信息检索、代码生成、GUI 交互及复杂工作流等场景中高效精准地完成任务,满足日益多元的技术需求。
以下是 Seed1.8 的三大核心特点:
通用 Agent 模型:Seed1.8 集搜索、代码与 GUI Agent 能力于一体,其原生基座视觉能力使它能够“看见”并直接与界面交互。
低延迟、高效应答:Seed1.8 支持三种思考模式,能够根据任务的复杂度自动调整处理方式,它还优化了图片编码需要的 token 数量,在无损智能的前提下大幅提升了推理效率。
对接真实世界需求:我们对 Seed1.8 进行了严格模拟真实工作流的评估测试,其在需求广泛的信息检索、意图识别、复杂指令遵循等场景表现良好。
基于我们建立的以现实需求为导向的内部评测体系,结合公开基准,我们对 Seed1.8 进行了全面系统的能力测试,完整结果详见 Model Card。下文将分别介绍 Seed 1.8 在通用 Agent、LLM 和 VLM 关键能力项上的表现。
项目主页(含Model Card):
https://seed.bytedance.com/seed1_8
体验入口:
火山引擎官网-大模型-豆包大模型-豆包大模型1.8-立即体验
Seed1.8 通用 Agent 能力
在多类真实任务中获得验证
在多项基准测试中,Seed1.8 展现了其作为通用 Agent 模型的强劲潜力,尤其在 GUI Agent、搜索、行业应用等任务中,取得了优秀的分数。
Agent 能力的难点体现在多个层面:
多任务并行处理:模型需要在多个任务之间做出判断,高效分配计算资源,并确保每个任务的执行质量。
复杂指令遵循:在需要处理多个约束条件的任务中,模型必须快速准确地理解并执行复杂指令。
跨域知识迁移:模型要在不同领域之间切换,完美执行任务,而这要求其具备强大的跨领域知识和推理能力。
Seed1.8 在以上难点中都有所突破。评测结果显示,它具备了业界领先的GUI Agent 能力,较 Seed1.5-VL 进一步提升,并在电脑、网页、移动端三类环境中,均展现出在不同系统和界面中执行多步任务的可靠性。
Seed1.8 在搜索任务中表现同样突出,在多组公开 Agent 搜索评测基准中保持业界第一梯队水平,比如在 BrowseComp-en 基准测试中得分高达 67.6,超过 Gemini-3-Pro 等其他顶级模型。
标注 * 的数据引自公开技术报告;标注 1 的数据引自官方全集分数
在 Agentic Coding 相关基准测试中,Seed1.8 展现出了面向真实软件工程场景的稳定能力。这表明 Seed1.8 并非只停留在代码生成层面,而是具备在真实开发环境中持续推进任务的 Agent 编程能力,为复杂工程场景下的应用打下基础。
标注 * 的数据引自公开技术报告
在有突出经济价值的现实应用任务上,Seed1.8 的表现也值得关注。
FinSearchComp 和 XpertBench 的测评显示,该模型在处理金融商业相关任务时相对稳定和高效。此外,Seed1.8 在 WorldTravel 多模态应用任务中得分达 47.2,表明它在处理旅行规划、用户需求分析等真实场景需求时具有可靠性。
WorldTravel 相关分数采用五次取最优得分
如下图所示,Seed1.8 为预算有限的一家人制定了游玩柏林的行程,其结合了旅行平台、预订网站和餐厅菜单等多方信息,并利用良好的推理能力和视觉解读能力,快速生成了符合所有约束条件的旅行计划。
在上述案例中,Seed1.8 不仅能根据预算、时间等基本条件做出推荐,还能根据用户的具体偏好(如餐饮口味、住宿环境)精确安排行程。通过智能推理和约束优化,模型自动结合多个维度的信息,生成了完整且符合实际需求的旅行计划,展现了其在复杂决策和个性化定制方面的能力。
LLM 能力评测结果
水平接近顶级通用模型
在多组公开的大语言模型基准测试中,Seed1.8 保持了稳定且具有竞争力的表现,处于业界第一梯队水平。
在数学、推理和知识理解等核心基础能力维度上,其整体水平接近业界顶级通用模型。
标注 * 的数据引自公开技术报告
在复杂指令遵循相关的基准测试中,Seed1.8 展现出了稳定的执行能力。这类任务通常包含多重约束、反向条件或长链路推理,要求模型在多步执行过程中持续保持对指令目标的准确理解。从结果来看,Seed1.8 在多项复杂指令基准中保持了与业界领先模型接近的表现。
标注 * 的数据引自公开技术报告
在此基础上,Seed1.8 进一步将能力验证扩展至由真实专家定义、具有明确经济价值的应用场景,包括教育辅导、客服问答、信息处理、意图识别、信息抽取以及多步骤复杂工作流等任务类型,验证了模型在真实使用环境中的适用性。
VLM 多模态评测结果
分数显著提升,表现突出
Seed1.8 在多个视觉语言基准测试中表现突出,其在多模态推理任务中超越了前代模型 Seed1.5-VL,在大部分任务中接近目前最先进的 Gemini-3-Pro。
图像理解能力
Seed1.8 在图像视觉理解任务中展现出较好的性能。在多模态推理类任务中,Seed1.8在被认为难度极高的视觉推理测试 ZeroBench 中,获得 11.0 的最高得分,相比前代 Seed1.5-VL,其成功解答问题数量大幅增加。
标注 * 的数据引自公开技术报告
在通用视觉问答任务中,Seed1.8 在 VLMsAreBiased 基准测试中取得了 62.0 的分数,大幅领先其他模型。
标注 * 的数据引自公开技术报告
Seed1.8 在 2D 以及 3D 空间理解的多个基准测试中表现优秀。其在处理 3D 空间理解和复杂任务时,特别是在动态和复杂数据集上,表现出较好的适应性和推理能力。
标注 * 的数据引自公开技术报告
视频理解能力
Seed1.8 在视频理解领域表现出色,尤其在视频推理、运动与感知、长视频理解等任务中,展现出了较强的适应性。
在动态场景和实时感知任务中,Seed1.8 名列前茅,展现了模型在复杂感知任务中的能力,尤其是在处理实时信息时的高效性。
标注 * 的数据引自公开技术报告
Seed1.8 在长视频理解任务中表现突出,比如在 VideoMME 中取得了 87.8 的较高分数。长视频理解通常涉及复杂的时间跨度、情境变换和长时间的上下文多跳推理,Seed1.8 加入了“VideoCut”视频工具调用能力,通过对部分片段慢放回看,可实现更加精准的长视频推理与高帧率运动感知。
标注 * 的数据引自公开技术报告;标注 ‡ 的数据在评估时纳入字幕信息
在视频处理中,Seed1.8 还实现了 Token Efficiency 的显著提升,这不仅带来了更强的理解能力,还将为用户提供更低延迟的实时视频处理体验。
在多个长视频 Benchmark 上,即便采用更低的 Max Video Token 配置,Seed1.8 仍然可取得比 Seed1.5-VL 更好的表现
更进一步,Seed1.8 通过引入多种 Thinking Modes,嵌入了动态调节思考深度的能力。用户可以根据任务的不同需求,灵活调整模型的推理深度和计算负载。
Seed1.8 与其他模型在不同多模态推理 Benchmark 下的推理成本与精度对比
未来展望
在 Seed1.8 的基础上,我们将面向全能智能体模型持续迭代,以解决真实世界复杂任务中的挑战。未来,我们将在以下方向上持续发力:
继续 Scaling 并提升性能,通过更强的算力支持,进一步提升模型在预训练和后训练环节的表现,以应对日益复杂的任务需求。
强化长期任务执行能力,推进长时间上下文处理和 Agent 记忆的优化,使模型能更加高效地处理长期任务和跨步骤的推理。
不断在真实场景中打磨模型,继续扩充与真实工作生活场景相关的训练数据,确保 Seed 模型能够真正适应多变的实际需求。
拓展智能边界,我们将进一步提升 Seed 模型在人类智能边界问题上的自主探索能力,为更高层次的 Agent 能力奠定基础。
同时,我们认为,建立以真实需求为导向的评测体系,对提升 Agent 模型的稳定性、泛化性和可用性有较大帮助,部分为 Seed1.8 研发构建的评测数据集已开源或将在未来开源,希望推动社区共同进步。
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み