Sakana Fugu:基盤モデルとしてのマルチエージェントオーケストレーションシステム
サカナAIが発表した「Sakana Fugu」は、複数の最先端大規模言語モデルを動的に調整・統合するマルチエージェントオーケストレーションシステムであり、API経由でベータテストを開始した。
キーポイント
マルチエージェント基盤モデルの採用
単一の大規模モデルに依存せず、専門化した複数のモデルプールを動的に協調させるアーキテクチャを採用し、コーディングや数学推論などでSOTA性能を実現する。
テスト時スケーリングと自己学習
小型の基盤モデルがLLMを呼び出す方法を学習し、必要に応じて自身を再帰的に呼び出すことで推論時の計算資源を活用し性能を拡張する。
運用効率とコストの最適化
ユーザーが複数のAPIキーやモデル切り替えを管理する必要をなくし、問題特性に応じた非自明な協調パターンを自動習得することで経済的非効率を解消する。
先行研究の商用製品化
ICLR 2026論文「Trinity」および「Conductor」の手法を基盤とし、Evolutionary mergingやAI Scientistなどの研究知見を実用レベルまで改良して提供している。
Adaptive Orchestration & Benchmark Performance
Fugu's dynamic coordination system delivers superior results across coding, math, and scientific reasoning benchmarks compared to leading frontier models.
Seamless API Integration & Dual Variants
Available via standard OpenAI-compatible APIs, it requires minimal workflow changes and offers two versions: Fugu Mini (latency-optimized) and Fugu Ultra (performance-optimized).
Self-Evolving Small Model Architecture
Fugu is a lightweight model trained to orchestrate LLMs, capable of self-invocation for inference-time scaling and complex adaptive routing.
影響分析・編集コメントを表示
影響分析
マルチエージェント・オーケストレーションを基盤モデルの定義に組み込んだ本発表は、単一モデル競争から「モデル連携・調整能力」への競争軸をシフトさせる可能性が高い。APIコストの削減と推論時の柔軟なスケーリングを実現するため、エンタープライズAI導入や複雑な推論タスクの現場において、従来の単一モデル依存のアーキテクチャを置き換える標準的な選択肢となるだろう。
編集コメント
単一モデルの性能競争から「いかに複数のモデルを最適に連携させるか」というアーキテクチャ転換期を示す重要なマイルストーンであり、実装コスト削減と推論柔軟性の両立が期待される。ただしベータ段階であるため、実際のベンチマーク数値や学習データの質が公開され次第、実務適用の可否を再評価する必要がある。

(*日本語は英文の後に)
当社の主力国際商用AI製品であるSakana Fuguをご紹介できることを嬉しく思います。これはマルチエージェント・オーケストレーションシステム(multi-agent orchestration system)であり、現在、早期ベータテスターの募集を開始しています。Sakana Fuguは最先端のファウンデーションモデル(foundation models)のプールを調整・運用し、コーディング、数学、科学的推論などの各分野で最先端のパフォーマンスを実現します。
当初、Sakana FuguモデルはAPIとして提供され、当社自身の研究者やエンジニアにとって重要な内部ツールとして機能してきました。そして現在、Sakana AI外部の方々にもご利用いただく準備が整いました:
👉 ベータテストを申請する

自身も小型言語モデル(small language model)であるSakana Fugu Modelは、LLMを呼び出す方法を学習します(左)。トレーニングの過程で、自身を呼び出すことも学習し、テスト時スケーリング(Test-time scaling)を実現します(右)。Sakana Fuguにおける実際の調整は適応的かつ複雑です。1
集団知性による可能性の拡大
Sakana AIの中核的な信念は、最も能力の高いAIシステムは孤立してスケールされた単一モデルではなく、専門的なエージェントの集合体が連携して動作するものだという点にあります。この考え方は当社が構築してきたすべての基盤を貫いています:多様なオープンソースモデルを組み合わせて、個別には持たない能力を生み出すことを示した進化的モデルマージ(evolutionary model merging)、連携するAIエージェントが科学調査の全サイクルを自律的に実行できることを実証したThe AI Scientist、LLM生成プログラムのプールに対する進化的探索を用いて人間のソリューションを上回るアルゴリズムを発見するShinkaEvolve、そして複数の最先端モデルが木探索(tree search)を通じて協力することで、困難な推論タスクにおいて単一モデルを大幅に上回ることを示したAB-MCTSです。
Sakana Fuguは、この研究方向性の製品化形態です。
Sakana Fugu 🐡
従来のファウンデーションモデル(foundation models)の利用アプローチでは、異なるプロバイダーのモデルがそれぞれ特定の分野に特化しているため、ユーザーは複数のAPIキーを管理する必要があります。このマルチモデル管理は経済的な非効率性を招きます。さらに、モデルの強みは広範な分野ではなく特定の課題に依存することが多いため、エンドユーザーがモデルを切り替えて細かく最適化することは困難です。
Sakana AIのFuguモデルはこれらの制限を解決します。Fuguモデルは、強力な多様なモデルのプールを動的に調整・運用することで優れたパフォーマンスを実現します。ドメイン知識を用いてチーム編成、役割、ワークフローを規定するのではなく、Fuguはプールからエージェントを動的に組み立て、明らかなようではないが極めて効率的なコラボレーションパターンを通じてそれらを調整することを学習します。
Sakana Fuguモデルは当社のICLR 2026論文(TrinityおよびConductor)に基づいており、パフォーマンスとユーザー体験を向上させるために手法を大幅に改良し、商業製品として提供いたします。
課題
Gemini 3.1 (high)
GPT 5.4 (high)
Opus 4.6 (max)
fugu-mini 🐟
fugu-ultra 🐡
GPQAD
94.4
90.9
92.7
92.4
95.1
LCBv6
90.3
92.1
92.4
90.4
93.2
SWEPro
48.4
51.2
53.4 2
51.3
54.2
この適応的で動的なオーケストレーション(multi-agent orchestration system)により、Fuguモデルは確立されたベンチマークにおいて優れたパフォーマンスを発揮します。上記の表は、現在ベータテスト(beta testing)として提供中のモデルに関する現在の結果の一部です。
Sakana Fugu の利用方法
Sakana Fugu は API を介してアクセス可能で、標準的な OpenAI 形式のエンドポイント(OpenAI-format endpoints)と互換性があります。すでに GPT、Gemini、または Claude を API で使用している場合、Sakana Fugu は既存のワークフローに最小限の変更で統合できます。その馴染みのあるインターフェースの背後では、Sakana Fugu がモデルプール全体のコordination(調整)を自動で処理し、複雑なタスクを完了するために協調トポロジー(collaboration topology)の構築、役割の割り当て、サブタスクの配信を行います。
2つのバリエーションが利用可能です:レイテンシー(latency)を重視して最適化された Sakana Fugu Mini 🐟 と、高度なタスク向けにパフォーマンスを最適化したフルオーケストレーションシステムである Sakana Fugu Ultra 🐡 です。
ベータテストへの参加
私たちは、あらゆる分野の研究者やエンジニアを早期テスターとして募集しています。Sakana Fugu が社内ですでにテストしていない領域でどのようにパフォーマンスを発揮し、どこに課題があるか、そして研究者やエンジニアがこのようなシステムから最も求めているものは何かを理解したいと考えています。
OpenCode や Codex などのコーディングアシスタント(coding assistants)、またはエンジニアリングやビジネス固有のプロジェクトで基盤モデル API(foundation model APIs)を使用しており、Fugu モデルがパフォーマンスや新規性の優位性をもたらすかどうかを確認したい場合は、ぜひご参加ください。
👉 ベータテストに参加を申請する
公開論文

Xu, Sun, Schwendeman, Nielsen, Cetin, Tang. TRINITY: An Evolved LLM Coordinator(LLMコーディネーター). ICLR 2026.
https://arxiv.org/abs/2512.04695

Nielsen, Cetin, Schwendeman, Sun, Xu, Tang. Learning to Orchestrate Agents in Natural Language with the Conductor(自然言語によるエージェントのオーケストレーション). ICLR 2026.
https://arxiv.org/abs/2512.04388
Japanese
マルチエージェント・オーケストレーションシステム「Sakana Fugu」βテスト開始

Sakana AIは、新たな商用AIプロダクトとして「Sakana Fugu(サカナ・フグ)」を開発しました。Sakana Fuguは、複数のフロンティア基盤モデルを協調させることで、コーディング、数学、科学的推論といった幅広い領域で高い性能を引き出すマルチエージェント・オーケストレーションシステムです。Sakana Fuguは、当初はAPIとして提供されます。これまで社内の研究者やエンジニアの主要なツールとして活用してきましたが、この度、社外の方々にもお使いいただけるよう、βテストを開始します。
👉 βテストに申し込む

Sakana Fuguはそれ自体が小規模なモデルであり、LLMを呼び出すことを学習します(左)。学習の過程で自分自身を呼び出すことも習得でき、これにより推論時スケーリング(reasoning-time scaling)が実現します(右)。なお、図では説明のためにシングルステップのルーティングとして示していますが、実際のSakana Fuguが実現するオーケストレーションはより適応的かつ複雑です。3
集合知により、AIの限界を押し広げる
Sakana AIでは、AIの可能性を最大限活かすには、一つの大きなモデルではなく、役割の異なる複数のエージェントが協力し合うことが最も有望な方法だと考え、研究開発を進めてきました。
「進化的モデルマージ(Evolutionary Model Merging)」では、多様なオープンソースモデルを組み合わせることで、どの単独モデルも持っていなかった能力を引き出せることを示しました。「AIサイエンティスト(AI Scientist)」では、複数のAIエージェント(Agents)が協調することで、科学研究のプロセス全体を自律的に進められることを実証しました。「ShinkaEvolve」では、LLMが生成したプログラムに対して進化的な探索を行うことで、人間が書いたものよりも優れたアルゴリズムを発見できることを示しました。そして「AB-MCTS」では、複数のフロンティアモデル(Frontier Models)が木探索を通じて協力することで、単独のモデルを大きく上回る性能を発揮できることを明らかにしました。
Sakana Fuguは、こうした研究の方向性をひとつのプロダクトとして形にしたものです。
Sakana Fuguとは
これまで、複数の基盤モデル(Foundation Models)を活用する際には、複数のAPIキーを使い分ける必要がありました。モデルによって得意分野が違うため、タスクごとに最適なモデルを選ぶ必要があるからです。しかしこの運用は、コスト面でも効率面でも負担が大きく、さらにモデルの強みは領域単位ではなく問題ごとに異なることも多いため、ユーザー側で細かく最適化するのは容易ではありません。
こうした課題を解決すべく、Sakana Fuguを開発しました。Sakana Fuguは、どのモデルをどう組み合わせて使うかを固定のルールで決めるのではなく、問題に応じて最適なエージェント(Agents)の組み合わせと協調の仕方を、モデルのプールの中から動的に選び出します。しかも、人間のドメイン知識では思いつきにくいような効率的な協調方法を、自律的に学習していくのが特徴です。Sakana Fuguのモデルは、私たちのICLR 2026採択論文(Trinity およびConductor)をベースとしており、さらなる性能向上とユーザー体験の向上に向けて手法を改良しています。
こうした適応的なオーケストレーション(Orchestration)によって、Sakana Fuguは既存のベンチマーク(Benchmarks)上でも高い性能を発揮します。以下は結果の一部です。
タスク
Gemini 3.1 (high)
GPT 5.4 (high)
Opus 4.6 (max)
fugu-mini 🐟
fugu-ultra 🐡
GPQAD
94.4
90.9
92.7
92.4
95.1
LCBv6
90.3
92.1
92.4
90.4
93.2
SWEPro
48.4
51.2
53.4 *
51.3
54.2
各ベンチマークタスクごとのスコア:*はAnthropic独自の検証用フレームワークを使用した自己申告スコア。SWEPro の評価には mini-swe-agent のスキャフォールド(Scaffolds)を使用。Anthropic が公表している Opus の最大思考モードのスコアについては、当社での評価試行中に頻繁にタイムアウトが発生したため、Anthropic 公式の報告値を採用。
Sakana Fuguの使い方
Sakana FuguはAPIで利用できます。OpenAI形式のエンドポイントとの互換性があり、いまGPT、Gemini、ClaudeなどのAPIをお使いの方は、既存のワークフローをほとんど変えずにそのまま導入いただけます。いつものインターフェースの背後で、Sakana Fuguがモデル間の協調の組み立て、役割の割り当て、サブタスクの振り分けまでを自動で行います。
ラインナップは2種類を予定しています。レイテンシ(Latency)を重視した「Sakana Fugu Mini 🐟」と、フルのモデルプールを活用する「Sakana Fugu Ultra 🐡」です。深い推論を求めるタスクにはUltraが適しています。
βテスター募集
今回のβテストでは、さまざまな分野の研究者・エンジニアの方にご参加いただきたいと考えています。社内ではまだ試せていない領域でSakana Fuguがどのような性能を発揮するのか、どこに課題があるのか、そしてこうしたシステムに対して現場でどのようなニーズがあるのかを、皆さまと一緒に見つけていくことが目的です。
OpenCodeやCodexといったコーディングアシスタントで基盤モデル(Foundation Models)のAPIを活用されている方、あるいはご自身のエンジニアリング業務やビジネス領域のプロジェクトで、Sakana Fuguが性能や可能性の面で新しい選択肢になりうるかを試してみたい方は、ぜひご応募ください。
👉 βテストに申し込む
関連論文

Xu, Sun, Schwendeman, Nielsen, Cetin, Tang. TRINITY: An Evolved LLM Coordinator. ICLR 2026.
https://arxiv.org/abs/2512.04695

Nielsen, Cetin, Schwendeman, Sun, Xu, Tang. Learning to Orchestrate Agents in Natural Language with the Conductor. ICLR 2026.
https://arxiv.org/abs/2512.04388
Footnotes
私たちの論文の一つの結果は、興味深い将来の方向性を示唆しています。Fuguモデルが自分自身を再帰的に呼び出し、以前の出力をコンテキストとして読み取り、調整戦略を見直すかどうかを判断できるようになると、新しい形態のテスト時スケーリング(test-time scaling)が現れます。モデルは最初の試みが不十分だったことを認識し、修正用のワークフローを立ち上げます。再帰の深さは、再学習を必要とせずに推論時(inference time)に調整可能な計算軸となります。小さなモデルであっても、自分自身を読み返すことで、単一パスではモデル自体もそのワーカーのいずれも到達できなかった答えへと反復的に近づいていくことができます。 ↩
カスタムAnthropicスキャフォールド(scaffold)を用いた自己報告スコア。SWEProはmini-swe-agentスキャフォールドを用いて評価されました。ただし、評価試行中に頻繁にタイムアウトが発生したため、Anthropicが報告した最大思考努力(max thinking efforts)を適用したOpusのスコアを使用しています。 ↩
自己呼び出しがもたらす、新しい推論時スケーリング Sakana Fuguが自分自身の出力を入力として読み込み、協調のしかたを見直しながら再帰的に自分を呼び出せるようにしたところ、新しいタイプのテスト時スケーリング(test-time scaling)が現れることがわかりました。モデル自身が「最初の答えでは不十分だった」と気づき、修正のためのワークフローを自ら立ち上げるのです。再帰の深さは推論時に調整でき、再学習は必要ありません。小さなモデルであっても、自分自身の出力を読み返すことによって、1回の推論では到達できなかった答えへとたどり着けるようになります。 ↩
原文を表示

(*日本語は英文の後に)
We are excited to introduce Sakana Fugu, our flagship international commercial AI product—a multi-agent orchestration system, now opening applications for early beta testers. Sakana Fugu coordinates pools of frontier foundation models to achieve state-of-the-art performance across coding, mathematics, scientific reasoning, etc.
Initially, our Sakana Fugu model will be available as an API, where it has served as a key internal tool for our own researchers and engineers, and we are now ready to invite people outside Sakana AI to try it:
👉 Apply for Beta Test

Sakana Fugu Model, which is a small language model itself, learns to call LLMs (left). In the course of training, it can learn to call itself, enabling Test-time scaling (right). The actual coordination in Sakana Fugu is adaptive and complex.1
Pushing the Boundaries by Collective Intelligence
A core conviction at Sakana AI is that the most capable AI systems will not be monolithic models scaled in isolation, but collections of specialized agents working together. This thread runs through everything we have built: evolutionary model merging, which showed that diverse open-source models can be combined to produce capabilities none possessed individually; The AI Scientist, which demonstrated that coordinated AI agents can autonomously execute the full cycle of scientific research; ShinkaEvolve, which uses evolutionary search over a pool of LLM-generated programs to discover algorithms that outperform human-written solutions; and AB-MCTS, which showed that multiple frontier models cooperating through tree search can substantially outperform any individual model on hard reasoning tasks.
Sakana Fugu is the product form of this research direction.
Sakana Fugu 🐡
Conventional approaches to utilizing foundation models often require users to manage multiple API keys, as models from different providers tend to specialize in distinct areas. This multi-model management leads to economic inefficiency. Moreover, since model strengths are frequently problem-specific rather than broad area-specific, fine-grained optimization through model switching is difficult for end-users.
Sakana AI’s Fugu models resolve these limitations. Fugu models achieve superior performance by dynamically coordinating and orchestrating a diverse pool of powerful models. Instead of using domain knowledge to prescribe team organization, roles, or workflows, Fugu learns to dynamically assemble agents from a pool and coordinate them through non-obvious but highly efficient collaboration patterns.
Sakana Fugu models are based on our ICLR 2026 papers (Trinity and Conductor), and we have substantially further improved the methods to increase the performance and user experience, to be offered as a commercial product.
Task
Gemini 3.1 (high)
GPT 5.4 (high)
Opus 4.6 (max)
fugu-mini 🐟
fugu-ultra 🐡
GPQAD
94.4
90.9
92.7
92.4
95.1
LCBv6
90.3
92.1
92.4
90.4
93.2
SWEPro
48.4
51.2
53.4 2
51.3
54.2
This adaptive, dynamic orchestration grants Fugu models superior performance on established benchmarks. The above table is a subset of our current results for our models in beta.
Using Sakana Fugu
Sakana Fugu is accessible via APIs, with compatibility for standard OpenAI-format endpoints. If you are already using GPT, Gemini, or Claude via API, Sakana Fugu can be integrated into existing workflows with minimal changes. Behind that familiar interface, Sakana Fugu handles coordination across the model pool automatically — establishing the collaboration topology, assigning the roles and dispatching the subtasks to complete complex tasks.
Two variants are available: Sakana Fugu Mini 🐟, optimized with latency in mind, and Sakana Fugu Ultra 🐡, the full orchestration system, optimized for performance for demanding tasks.
Join the Beta
We are looking for researchers and engineers from all areas to join as early testers. We want to understand how Sakana Fugu performs across domains we have not yet tested internally, where it falls short, and what researchers and engineers most need from a system like this.
If you are using foundation model APIs in coding assistants like OpenCode and Codex, or in your engineering, business-specific projects where you would like to see if Fugu models bring performance or novelty advantages, we would love to have you involved.
👉 Apply to Join the Beta
Publications

Xu, Sun, Schwendeman, Nielsen, Cetin, Tang. TRINITY: An Evolved LLM Coordinator. ICLR 2026.
https://arxiv.org/abs/2512.04695

Nielsen, Cetin, Schwendeman, Sun, Xu, Tang. Learning to Orchestrate Agents in Natural Language with the Conductor. ICLR 2026.
https://arxiv.org/abs/2512.04388
Japanese
マルチエージェント・オーケストレーションシステム「Sakana Fugu」βテスト開始

Sakana AIは、新たな商用AIプロダクトとして「Sakana Fugu(サカナ・フグ)」を開発しました。Sakana Fuguは、複数のフロンティア基盤モデルを協調させることで、コーディング、数学、科学的推論といった幅広い領域で高い性能を引き出すマルチエージェント・オーケストレーションシステムです。Sakana Fuguは、当初はAPIとして提供されます。これまで社内の研究者やエンジニアの主要なツールとして活用してきましたが、この度、社外の方々にもお使いいただけるよう、βテストを開始します。
👉 βテストに申し込む

Sakana Fuguはそれ自体が小規模なモデルであり、LLMを呼び出すことを学習します(左)。学習の過程で自分自身を呼び出すことも習得でき、これにより推論時スケーリングが実現します(右)。なお、図では説明のためにシングルステップのルーティングとして示していますが、実際のSakana Fuguが実現するオーケストレーションはより適応的かつ複雑です。3
集合知により、AIの限界を押し広げる
Sakana AIでは、AIの可能性を最大限活かすには、一つの大きなモデルではなく、役割の異なる複数のエージェントが協力し合うことが最も有望な方法だと考え、研究開発を進めてきました。
「進化的モデルマージ」では、多様なオープンソースモデルを組み合わせることで、どの単独モデルも持っていなかった能力を引き出せることを示しました。「AIサイエンティスト」では、複数のAIエージェントが協調することで、科学研究のプロセス全体を自律的に進められることを実証しました。「ShinkaEvolve」では、LLMが生成したプログラムに対して進化的な探索を行うことで、人間が書いたものよりも優れたアルゴリズムを発見できることを示しました。そして「AB-MCTS」では、複数のフロンティアモデルが木探索を通じて協力することで、単独のモデルを大きく上回る性能を発揮できることを明らかにしました。
Sakana Fuguは、こうした研究の方向性をひとつのプロダクトとして形にしたものです。
Sakana Fuguとは
これまで、複数の基盤モデルを活用する際には、複数のAPIキーを使い分ける必要がありました。モデルによって得意分野が違うため、タスクごとに最適なモデルを選ぶ必要があるからです。しかしこの運用は、コスト面でも効率面でも負担が大きく、さらにモデルの強みは領域単位ではなく問題ごとに異なることも多いため、ユーザー側で細かく最適化するのは容易ではありません。
こうした課題を解決すべく、Sakana Fuguを開発しました。Sakana Fuguは、どのモデルをどう組み合わせて使うかを固定のルールで決めるのではなく、問題に応じて最適なエージェントの組み合わせと協調の仕方を、モデルのプールの中から動的に選び出します。しかも、人間のドメイン知識では思いつきにくいような効率的な協調方法を、自律的に学習していくのが特徴です。Sakana Fuguのモデルは、私たちのICLR 2026採択論文(Trinity およびConductor)をベースとしており、さらなる性能向上とユーザー体験の向上に向けて手法を改良しています。
こうした適応的なオーケストレーションによって、Sakana Fuguは既存のベンチマーク上でも高い性能を発揮します。以下は結果の一部です。
タスク
Gemini 3.1 (high)
GPT 5.4 (high)
Opus 4.6 (max)
fugu-mini 🐟
fugu-ultra 🐡
GPQAD
94.4
90.9
92.7
92.4
95.1
LCBv6
90.3
92.1
92.4
90.4
93.2
SWEPro
48.4
51.2
53.4 *
51.3
54.2
各ベンチマークタスクごとのスコア:*はAnthropic独自の検証用フレームワークを使用した自己申告スコア。SWEPro の評価には mini-swe-agent のスキャフォールドを使用。Anthropic が公表している Opus の最大思考モードのスコアについては、当社での評価試行中に頻繁にタイムアウトが発生したため、Anthropic 公式の報告値を採用。
Sakana Fuguの使い方
Sakana FuguはAPIで利用できます。OpenAI形式のエンドポイントとの互換性があり、いまGPT、Gemini、ClaudeなどのAPIをお使いの方は、既存のワークフローをほとんど変えずにそのまま導入いただけます。いつものインターフェースの背後で、Sakana Fuguがモデル間の協調の組み立て、役割の割り当て、サブタスクの振り分けまでを自動で行います。
ラインナップは2種類を予定しています。レイテンシを重視した「Sakana Fugu Mini 🐟」と、フルのモデルプールを活用する「Sakana Fugu Ultra 🐡」です。深い推論を求めるタスクにはUltraが適しています。
βテスター募集
今回のβテストでは、さまざまな分野の研究者・エンジニアの方にご参加いただきたいと考えています。社内ではまだ試せていない領域でSakana Fuguがどのような性能を発揮するのか、どこに課題があるのか、そしてこうしたシステムに対して現場でどのようなニーズがあるのかを、皆さまと一緒に見つけていくことが目的です。
OpenCodeやCodexといったコーディングアシスタントで基盤モデルのAPIを活用されている方、あるいはご自身のエンジニアリング業務やビジネス領域のプロジェクトで、Sakana Fuguが性能や可能性の面で新しい選択肢になりうるかを試してみたい方は、ぜひご応募ください。
👉 βテストに申し込む
関連論文

Xu, Sun, Schwendeman, Nielsen, Cetin, Tang. TRINITY: An Evolved LLM Coordinator. ICLR 2026.
https://arxiv.org/abs/2512.04695

Nielsen, Cetin, Schwendeman, Sun, Xu, Tang. Learning to Orchestrate Agents in Natural Language with the Conductor. ICLR 2026.
https://arxiv.org/abs/2512.04388
Footnotes
One result from our papers points to an interesting future direction. When a Fugu model is allowed to call itself recursively, reading its own prior output as context and deciding whether to revise its coordination strategy, a new form of test-time scaling emerges. The model recognizes when its first attempt fell short and spins up a corrective workflow. The depth of recursion becomes a tunable compute axis at inference time, requiring no retraining. A small model, by reading itself, can iterate toward answers that neither it nor any of its workers could reach in a single pass. ↩
Self-reported score with custom Anthropic scaffold. SWEPro were evaluated with the mini-swe-agent scaffold. However, we use the scores reported by Anthropic for Opus with the max thinking efforts due to frequent timeouts during our evaluation trials. ↩
自己呼び出しがもたらす、新しい推論時スケーリング Sakana Fuguが自分自身の出力を入力として読み込み、協調のしかたを見直しながら再帰的に自分を呼び出せるようにしたところ、新しいタイプの推論時スケーリングが現れることがわかりました。モデル自身が「最初の答えでは不十分だった」と気づき、修正のためのワークフローを自ら立ち上げるのです。再帰の深さは推論時に調整でき、再学習は必要ありません。小さなモデルであっても、自分自身の出力を読み返すことによって、1回の推論では到達できなかった答えへとたどり着けるようになります。 ↩
関連記事
トリニティ:多様な専門 AI を統括する進化した LLM コーディネーター
研究者らが ICLR2026 で発表した論文「TRINITY」は、単一の巨大 AI ではなく、多様な専門 AI チームを調整する協調型システム「トリニティ」の進化版を示した。このアプローチにより複雑な問題解決が効率化される可能性が示された。
Amazon Bedrock AgentCore を活用し、Baz が AI エージェントのコードレビュー精度を向上させた方法
Baz は開発者と製品要件の乖離により手動レビューが非効率だった課題に対し、Amazon Bedrock AgentCore を導入。これにより機能要件や設計意図への適合性を自動検証可能となり、納期短縮と品質の一貫性向上を実現した。
Gemini CLIのサブエージェントがタスク委譲と並列エージェントワークフローを可能に
GoogleはGemini CLIにサブエージェント機能を追加し、開発者が複雑または反復的なタスクを専用AIエージェントに委譲して並列処理できるようにした。