AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Sakana AI·2026年4月27日 00:00·約4分

自然言語によるエージェントのオーケストレーション学習:Conductor モデル

#マルチエージェントシステム#強化学習#LLM オーケストレーション#メタ学習#Sakana AI
TL;DR

Sakana AI は強化学習を用いて、タスクの難易度に応じて動的にエージェントチームを構築・管理する「Conductor」モデルを開発し、単体モデルや既存マルチエージェント手法を上回る性能とコスト効率を実現した。

AI深層分析2026年5月3日 13:03
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
5

キーポイント

1

自然言語による自律的オーケストレーション

従来の固定ワークフローや単純なルーティングに代わり、Conductor モデルが自然言語でエージェントの選定、サブタスクの指示、文脈共有を動的に行う。

2

難易度に応じた適応的動作

単純な事実確認では単一モデルを呼び出す一方、複雑なコーディング問題では計画者・実行者・検証者のパイプラインを自律的に構築する。

3

再帰的なテストタイムスケーリング

Conductor 自身がワーカーとして選出され、失敗を検知して自己修正ワークフローを即時に生成する機能により、推論時の計算リソースを動的に拡張可能。

4

高性能と低コストの両立

7B の小規模モデルが GPT-5 や Claude などの最先端モデルを含むプールを上回り、LiveCodeBench で 83.9%、GPQA-Diamond で 87.5% を記録。

5

TRINITY研究との連携

本記事で紹介されている自然言語によるアジェントオーケストレーションの基礎研究は、数日前に発表されたTRINITY研究と並行して進められています。

6

Sakana Fuguシステムの開発

この基盤技術を活用し、新しいマルチアジェントシステム「Sakana Fugu」が構築されました。

影響分析・編集コメントを表示

影響分析

この研究は、AI エージェントシステムにおける「設計者の役割」を人間から AI に委譲するパラダイムシフトを示しており、複雑なタスク解決において柔軟性とスケーラビリティを劇的に向上させる可能性を秘めています。特に、推論段階での動的リソース配分(テストタイムスケーリング)は、計算コストを抑えつつ高性能を維持するための重要な技術的突破口となるでしょう。

編集コメント

「プロンプトエンジニアリング」の自動化から一歩進み、AI が自らチームを編成・指揮する時代が到来しました。特に推論時の動的スケーリング機能は、実務でのコスト最適化に直結する画期的なアプローチです。

image
image

TL;DR

ここ数年、人間は異なる大規模言語モデル(LLM)から最高のパフォーマンスを引き出すために「プロンプトエンジニアリング」を行ってきました。本研究では、その作業を AI に任せるように訓練した場合に何が起きるかを探索しました。

本研究では、強化学習(RL)を用いて Conductor モデルを訓練した結果、このモデルが自然言語で他のモデル群全体に対して非常に効果的なカスタム指示を記述することを自発的に学習することが分かりました。本質的には、それらを自然言語で「管理」する方法を学んだことになります。

最も驚いたのは、その動的な適応能力です。単純な事実確認の質問には単一のモデルに問い合わせるだけで済みますが、難しいコーディング問題に対しては、自律的にプランナー、コーダー、検証者からなる一連のパイプラインを立ち上げます。

Summary

ICLR2026 に採択された新しい研究「Learning to Orchestrate Agents in Natural Language with the Conductor」をご紹介します

Paper: https://arxiv.org/abs/2512.04388

OpenReview: https://openreview.net/forum?id=U23A2BUKYt

もし AI に問題を直接解決させるのではなく、多様な他の AI チームにタスクを委任するマネージャーとして行動させるように訓練したらどうなるでしょうか?

複雑なタスクを解決する際、人間は単独で働くことはめったになく、チームを結成し、委任を行い、コミュニケーションを取ります。しかし、現在のマルチエージェント AI システムは、依然として硬直した人間設計のワークフローや、単一のモデルを選択するだけの単純なルーターに大きく依存しています。私たちは、自ら動的にチームを構築できる AI を目指しました。

私たちは、先端的なモデル群(GPT-5、Gemini、Claude、および ICLR2026 開催直前までに利用可能だったオープンソースモデルを含む)を調整するために、強化学習(Reinforcement Learning)を用いて 7B の Conductor モデルを訓練しました。

コードを実行するのではなく、Conductor は自然言語で協調的なワークフローを出力します。特定の質問に対して、Conductor は以下を指定します:

どのエージェントを呼び出すか

それらに与える具体的なサブタスク(専門家プロンプトエンジニアとして機能)

コンテキストウィンドウ内で参照可能な過去のメッセージ

純粋なエンドツーエンドの報酬最大化を通じて、驚くべき行動が現れました。Conductor はタスクの難易度に応じて適応することを学びました:単純な事実確認クエスチョンには 1 ショットで対応しますが、困難なコーディング問題に対しては自律的に複雑なプランナー・エグゼキューター・ベリファイアパイプラインを構築します。

結果は非常に有望です:7B の Conductor はプール内の個々のワーカーモデルの性能を上回り、公開時点において LiveCodeBench(83.9%)および GPQA-Diamond(87.5%)で新たな記録を樹立しました。また、Mixture-of-Agents などの高コストなマルチエージェントベースラインと比較して、その数分の之一的なコストで大幅に上回る性能を発揮します。

私たちが特に気に入っている機能の一つ:再帰的なテストタイムスケーリング!Conductor が自分自身をワーカーとして選択できるようにすることで、自身のチームの過去の出力を読み込み、失敗したかどうかを認識し、その場で修正ワークフローを構築します。これにより、推論中の計算リソースのスケーリングにおける新たな軸が開かれました。

本研究は、言語モデルがエリート級のメタプロンプトエンジニアとなり、集団知能を動的に活用できることを証明するものです。

数日前に発表した TRINITY 研究と並行し、この基盤的研究が私たちの新しいマルチエージェントシステム「Sakana Fugu」を支えています!🐡

原文を表示
image
image

TL;DR

For the past few years, humans have been doing “prompt engineering” to coax the best performance out of different LLMs. In this work, we explored what happens if we train an AI to do that job instead.

In this work, by training a Conductor model with RL, we found that it naturally learns to write highly effective, custom instructions for a whole pool of other models. It essentially learns to ‘manage’ them in natural language.

What surprised us most was how it dynamically adapts. For simple factual questions, it just queries one model. But for hard coding problems, it autonomously spins up a whole pipeline of planners, coders, and verifiers.

Summary

Introducing our new work: “Learning to Orchestrate Agents in Natural Language with the Conductor” accepted at ICLR2026

Paper: https://arxiv.org/abs/2512.04388

OpenReview: https://openreview.net/forum?id=U23A2BUKYt

What if we trained an AI not to solve problems directly, but to act as a manager that delegates tasks to a diverse team of other AIs?

To solve complex tasks, humans rarely work alone; we form teams, delegate, and communicate. Yet, multi-agent AI systems currently rely heavily on rigid, human-designed workflows or simple routers that just pick a single model. We wanted an AI that could dynamically build its own team.

We trained a 7B Conductor model using Reinforcement Learning to orchestrate a pool of frontier models (including GPT-5, Gemini, Claude, and open-source models available during the period leading up to ICLR2026).

Instead of executing code, the Conductor outputs a collaborative workflow in natural language. For any given question, the Conductor specifies:

Which agent to call

What specific subtask to give them (acting as an expert prompt engineer)

What previous messages they can see in their context window

Through pure end-to-end reward maximization, amazing behaviors emerged. The Conductor learned to adapt to task difficulty: it 1-shots simple factual questions, but autonomously spins up complex planner-executor-verifier pipelines for hard coding problems.

The results are very promising: The 7B Conductor surpasses the performance of every individual worker model in its pool, setting new records on LiveCodeBench (83.9%) and GPQA-Diamond (87.5%) at the time of publication. It also significantly outperforms expensive multi-agent baselines like Mixture-of-Agents at a fraction of the cost.

One of our favorite features: Recursive Test-Time Scaling! By allowing the Conductor to select itself as a worker, it reads its own team’s prior output, realizes if it failed, and spins up a corrective workflow on the fly. This opens a new axis for scaling compute during inference.

This research proves that language models can become elite meta-prompt engineers, dynamically harnessing collective intelligence.

Alongside our TRINITY research which we announced a few days earlier, this foundational research powers our new multi-agent system: Sakana Fugu! 🐡

この記事をシェア

関連記事

TechCrunch AI重要度42026年6月26日 01:55

General Intuition の 23 億ドル投資:ビデオゲームが現実世界の AI エージェントを訓練できるという賭け

Algomatic Tech Blog2026年6月25日 17:52

Algomatic がノーコード環境「LeLab」で模倣学習を開始

Sakana AI重要度42026年4月30日 01:00

サカナ AI と SMBC グループが共同開発した複数 AI エージェントによる提案書自動生成アプリケーション

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む