AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Sakana AI·2026年4月26日 00:00·約4分

トリニティ:多様な専門 AI を統括する進化した LLM コーディネーター

#LLM#マルチエージェント#進化計算#推論最適化#Sakana AI
TL;DR

Sakana AI は、単一巨大モデルの限界を打破し、進化アルゴリズムで最適化された軽量コーディネーターが複数の専門 LLM を動的に指揮する「TRINITY」を発表し、LiveCodeBench で新記録を樹立した。

AI深層分析2026年5月3日 13:03
5
最重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
5

キーポイント

1

進化型コーディネーターの導入

重みを変更せず、Thinker(戦略)、Worker(実行)、Verifier(検証)という 3 つの役割を動的に割り当てる軽量な LLM コーディネーターを採用し、テスト時のモデル構成を実現した。

2

勾配ベース手法の限界突破

従来の強化学習(REINFORCE)や教師あり学習が機能しない環境において、微分不要な進化アルゴリズムを用いて 20K パラメータ以下のCoordinator を最適化する成功例を示した。

3

SOTA の達成と汎化能力

LiveCodeBench で 86.2% の pass@1 を記録し、GPT-5 や Gemini 2.5-Pro などの個別モデルや既存のマルチエージェント手法を凌駕。再学習なしで未見タスクにもゼロショット転移可能であることを実証した。

4

ゼロショット汎化能力の証明

再学習なしで4つの未見タスクに転移し、GPT-5やClaude-4-Sonnetを含む既存の最前線モデルを平均して上回る性能を示した。

5

単一モデル依存からの脱却

Sakana AI のビジョンとして、巨大な単一モデルのスケーリングではなく、適応力と強みを組み合わせる協力的で多様なAIエコシステムの構築を推進している。

6

製品への実装

この基礎研究は、同社のマルチエージェントプロダクト「Sakana Fugu」の中核エンジンとして機能している。

影響分析・編集コメントを表示

影響分析

この発表は、AI のスケーリング法則が頭打ちになる中で、モデルを融合・連携させる新たなアプローチの確立を示す画期的な成果です。特に進化アルゴリズムを用いた最適化手法の成功は、リソース効率の高い次世代 AI システム設計への道を開くものであり、業界全体が「巨大単一モデル」から「協調型分散システム」へ視点をシフトする重要な転換点となります。

編集コメント

「進化アルゴリズムで LLM コーディネーターを最適化」という発想は、既存の RLHF や SFT の枠組みを超えた全く新しい学習パラダイムとして注目すべきです。実用面でも、外部 API を活用しながら高品質な推論を実現するコスト削減策として即座に研究対象となるでしょう。

image
image

巨大な AI を一つ構築する代わりに、多様な専門 AI のチームを指揮調整するためのコーディネーターを進化させることはどうでしょうか?🐟

ICLR2026 で会議論文として発表された新しい論文「TRINITY: An Evolved LLM Coordinator」をご紹介できることを嬉しく思います!

論文:https://arxiv.org/abs/2512.04695

OpenReview: https://openreview.net/forum?id=5HaRjXai12

自然界では、複雑な問題は単一の巨大な実体によって解決されることはめったにありません。むしろ、協調して働く専門的な個々の存在の連携した努力によって解決されます。しかしながら、現代の AI 開発は、単一の巨大なモノリスモデルを延々とスケールアップすることに重点が置かれており、リターンは逓減しています。モデルマージ(model merging)は異なるスキルを組み合わせる手段を提供しますが、不整合なニューラルアーキテクチャや高性能モデルのクローズドソースという性質により、実際には適用が難しいケースが多いです。

これに対処するため、私たちはマクロレベルのアプローチであるテストタイムモデル合成(test-time model composition)を採用しました。TRINITY は、基盤となる重みを変更する必要なく、多様な最先端モデルの相補的な強みを融合させるシステムです。

TRINITY は複数のターンにわたってクエリを処理します。各ステップにおいて、軽量なコーディネーターが利用可能なプールから LLM(大規模言語モデル)の一つを選び、3 つの異なる役割のいずれかを割り当てます:

Thinker: 高レベルの戦略を考案し、現在の状態を分析する。

Worker: 具体的な問題解決ステップを実行する。

Verifier: 現在の解決策が完了しており正しいかどうかを評価する。

これらの役割を動的に割り当てることで、コーディネーターは複雑な推論やスキル実行を外部モデルに効果的にオフロードします。

TRINITY が独自性を発揮するのは、その極端な効率性にあります。コーディネーターはコンパクトな言語モデルの隠れ状態と小さなルーティングヘッドに依存しています。全体として、学習可能なパラメータ数は 20K を超えません。

このシステムのトレーニングには大きな課題がありました。従来の強化学習(REINFORCE)は、バイナリ報酬と弱いパラメータ結合により勾配の信号対雑音比が低いために失敗しました。模倣学習(教師あり微調整)も、多ターンラベルの生成に莫大なコストがかかるため却下されました。

私たちの解決策は?自然からインスピレーションを得たアルゴリズムに目を向けました。コーディネーターを勾配なしの進化型アルゴリズムで最適化しました。従来の勾配ベース手法が失敗する、この緊密で高次元の調整問題を最適化するのに進化が特に適していることを発見しました。

結果は非常に有望です。実験において、TRINITY はさまざまなベンチマークで既存のマルチエージェント手法や個別モデルを一貫して上回りました。発表時点では LiveCodeBench で新たな最高記録を樹立し、86.2% の pass@1 スコアを達成しました。

さらに重要なのは、驚異的な汎化能力を示したことです。再学習を一切行わずに、TRINITY は 4 つの未見タスク(AIME, BigCodeBench, MT-Bench, GPQA)に対してゼロショット転移を実現しました。平均して、進化したコーディネーターは、そのプール内の個々の構成モデルすべてを上回りました。これには GPT-5、Gemini 2.5-Pro、Claude-4-Sonnet(昨年 ICLR2026 に提出した時点での利用可能な最前線モデル)も含まれます。

この研究は、Sakana AI のビジョンの中核をなすものです。私たちは、AI の未来は単に巨大なモノリス型モデルをスケールさせることだけにあるのではなく、適応し、強みを組み合わせる協力的で多様な AI エコシステムをエンジニアリングすることにあると考えています。

コミュニティの皆様には、論文の読解とこれらのアイデアの探求をご招待いたします!

この基礎研究は、マルチエージェント製品である Sakana Fugu 🐡 を駆動するコアエンジンの中核部分を構成しています。

原文を表示
image
image

What if instead of building one giant AI, we evolved a coordinator to orchestrate a diverse team of specialized AIs? 🐟

Excited to share our new paper: “TRINITY: An Evolved LLM Coordinator”, published as a conference paper at ICLR2026!

Paper: https://arxiv.org/abs/2512.04695

OpenReview: https://openreview.net/forum?id=5HaRjXai12

In nature, complex problems are rarely solved by a single monolithic entity, but rather by the coordinated efforts of specialized individuals working together. Yet, modern AI development is heavily focused on endlessly scaling up single, massive monolithic models, yielding diminishing returns. While model merging offers a way to combine different skills, it is often impractical due to mismatched neural architectures and the closed-source nature of top-performing models.

To address this, we took a macro-level approach: test-time model composition. We introduce TRINITY, a system that fuses the complementary strengths of diverse, state-of-the-art models without needing to modify their underlying weights.

TRINITY processes queries over multiple turns. At each step, a lightweight coordinator assigns one of three distinct roles to an LLM from its available pool:

Thinker: Devises high-level strategies and analyzes the current state.

Worker: Executes concrete problem-solving steps.

Verifier: Evaluates if the current solution is complete and correct.

By dynamically assigning these roles, the coordinator effectively offloads complex reasoning and skill execution onto the external models.

What makes TRINITY unique is its extreme efficiency. The coordinator relies on the hidden states of a compact language model and a small routing head. In total, it has fewer than 20K learnable parameters.

Training this system presented a massive challenge. Traditional Reinforcement Learning (REINFORCE) failed because the gradients had a low signal-to-noise ratio due to binary rewards and weak parameter coupling. Imitation learning (Supervised Fine-Tuning) was ruled out because generating multi-turn labels is prohibitively expensive.

Our solution? We turned to nature-inspired algorithms. We optimized the coordinator using a derivative-free evolutionary algorithm. We found that evolution is uniquely suited to optimize this tight, high-dimensional coordination problem where traditional gradient-based methods fail.

The results are very promising. In our experiments, TRINITY consistently outperforms existing multi-agent methods and individual models across various benchmarks. At the time of publication, it set a new state-of-the-art record on LiveCodeBench, achieving an 86.2% pass@1 score.

More importantly, it demonstrated incredible generalization. Without any retraining, TRINITY transferred zero-shot to four unseen tasks (AIME, BigCodeBench, MT-Bench, and GPQA). On average, the evolved coordinator surpassed every individual constituent model in its pool, including GPT-5, Gemini 2.5-Pro, and Claude-4-Sonnet (the top frontier models available at the time of our ICLR2026 submission last year).

This work is central to Sakana AI’s vision. We believe the future of AI isn’t just about scaling monolithic models, but engineering collaborative, diverse AI ecosystems that can adapt and combine their strengths.

We invite the community to read the paper and explore these ideas!

This foundational research is part of the core engine powering our multi-agent product: Sakana Fugu 🐡

この記事をシェア

関連記事

KDnuggets重要度42026年6月27日 00:00

Apple Silicon で MLX を用いた言語モデルのファインチューニング

The Zvi重要度42026年6月26日 23:51

ホワイトハウスが個別に GPT-5.6 のアクセス権をその場しのぎで決定する方針へ

AWS Machine Learning Blog重要度42026年6月26日 23:42

AWS を活用した保険仲介向けドメイン特化型 AI の先駆者、Cara の取り組み

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む