サカナ AI のフグ(3 分読了)
Sakana AI は、単一モデルの依存リスクを回避し、複数のエージェントを動的に連携させる「Fugu」という新システムを発表し、業界の最先端性能と地政学的なレジリエンスを両立させた。
キーポイント
マルチエージェントオーケストレーションシステムの登場
Sakana AI は「Fugu」という完全なマルチエージェントオーケストレーションシステムを発表し、単一のモデル API を介してアクセス可能であることを示した。
地政学的リスクへの対応とレジリエンス
特定のベンダーや国による輸出規制でサービスが停止するリスクに対し、複数のエージェントをプールし動的にルーティングすることで、供給網の脆弱性を解消する戦略を提示した。
業界最上位クラスの性能達成
Fugu Ultra モデルは、Fable や Mythos といった主要モデルと肩を並べる性能を示し、厳格なエンジニアリング・科学・推論ベンチマークで同等以上の結果を出した。
モノリス型から協調生態系への転換
AI の進歩が巨大な単一モデルに依存する時代から、将来は複数のエージェントが協力する「協働エコシステム」へと移行すべきだと主張している。
動的なモデルオーケストレーション
Sakana Fugu は単一の LLM として動作し、複雑なタスクに対して最適なモデルを自動的に選択・委譲・検証するマルチエージェントシステムです。
2 つの専用モデルラインナップ
低レイテンシとバランス性能に優れた「Fugu」と、高度な研究やセキュリティ分析向けに最適化された最高品質モデル「Fugu Ultra」が用意されています。
自律的なML研究と最適化
Fugu Ultraは14時間以内に単一のH100 GPU上で100回以上の実験を自動実行し、学習率やバッチサイズなどのパラメータを調整して検証エラー率を低減させることに成功しました。
影響分析・編集コメントを表示
影響分析
この発表は、AI の性能競争だけでなく、地政学的な不確実性に対する戦略的対応という新たな次元を切り開いた。企業や政府が AI インフラを構築する際、単一のベンダーへの依存を避けるための具体的な技術的解決策(マルチエージェントオーケストレーション)を提供し、業界全体のアーキテクチャ設計の方向性を大きく変える可能性がある。
編集コメント
単なる性能向上の発表にとどまらず、輸出規制という現実的な脅威に対して「分散型オーケストレーション」という技術的解決策を提示した点は極めて示唆に富んでいます。今後は、AI システム設計において「冗長性」や「レジリエンス」が「性能」同等以上に重視される時代が到来するでしょう。
11,549 views
twitter-profile#error" data-retried="true">
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2068861630327443966" dir="auto">
Sakana Fugu の紹介:単一のモデル API を介してアクセス可能な、フル機能のマルチエージェントオーケストレーションシステム。
当社の『Fugu Ultra』モデルは、Fable や Mythos と同等のパフォーマンスを発揮し、輸出規制のリスクなく最先端の能力を提供します。
お試しください:🐡sakana.ai/fugu
**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2068862070062485867" dir="auto">
Fugu は、業界で最も厳格なエンジニアリング、科学、推論のベンチマークにおいて、Fable や Mythos といった主要モデルと肩を並べる存在です。
詳細はブログをご覧ください:sakana.ai/fugu-release
より大きなモデルを超えて:なぜオーケストレーションモデルが次のフロンティアなのか
AI の進歩は、主に巨大なモノリス型モデルによって牽引されてきました。しかし、未来において最も強力なシステムは、協力的なエコシステムとなるでしょう。
今日、このオーケストレーション(調整・統率)はもはや単なる技術的な最適化ではありません。それは地政学的かつ運用上の必須要件となっています。
組織や国家にとって、重要なインフラストラクチャ、金融、ガバナンスにおいて単一の企業のモデルに依存することは、重大な脆弱性となります。このリスクはもはや仮説の可能性ではなく、現実のものです。
Fable や Mythos といったモデルに対して最近課された輸出規制を見てもわかるように、アクセス権限は一夜にして失われる可能性があります。
集合知は、この権力の集中に対する実用的なヘッジです。Fugu は交換可能なエージェントの基盤プールを調整するため、ベンダーによる制限を迂回して処理を行うことができます。
世界のモデルを調整することで、真の AI 主権に必要なレジリエントな青写真を提供しています。
**
*さらに詳しく知る
マイクロブログ
アプリストア最適化
モバイルアプリ & アドオン
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2068862344684581023" dir="auto">
仕組みは?
Sakana Fugu はその自体が LLM(大規模言語モデル)であり、エージェントプール内のさまざまな LLM を呼び出すように訓練されています。そこには自身を再帰的に呼び出すインスタンスも含まれます。Fugu は複雑で多段階のタスクに取り組むために、世界の最良のモデルを動的に調整します。
この図に示されている通り、Fugu は単一のモデルのように振る舞うマルチエージェントシステムです。1 つのエンドポイントにリクエストを送信すると、Fugu が内部でどのように処理するかを決定します。
Fugu はモデルの選択、委任、検証、合成を自動的に管理します。タスクが単純であれば直接解決し、より多くの専門性が求められる問題の場合は、専門家モデルチームを調整します。マルチエージェントシステムの複雑さは、あなたのコードに届くことはありません。
ローンチ時、Sakana Fugu は 1 つの OpenAI 互換 API を介してアクセス可能な 2 つのモデルで提供されます:
• Fugu は、日常業務において強力なパフォーマンスと低遅延を両立します。コーディングのための Codex やチャットボット、インタラクティブサービスなどのツールに自然に組み込むことができます。また、データコンプライアンスのために特定のエージェントをプールから除外することも可能です。
• Fugu Ultra は、複雑で多段階の問題に対する回答の質を最大化するために調整された当社のフラッグシップモデルです。AI 研究、サイバーセキュリティ分析、特許調査などの要求の高い作業には、より深い専門家エージェントのプールを協調させて対応します。
*
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069079051239874657" dir="auto">
ベンチマークは物語の一部しか語らないものです。
Fugu の真の価値は、長く複雑な現実世界のワークフローにおいて発揮されます。500 名のユーザーによるベータテスト期間中、Fugu Ultra がデータサイエンスから完全なサイバーセキュリティ評価に至るまで、自動化されたタスクで有意義な進展を導いたことを確認しました。
初期のユーザーたちは、Fugu が探索を行い、失敗を解釈し、ほぼゼロ人の人的介入で進捗を維持する様子を目撃しました。フィードバックは素晴らしいものでした。彼らの声をご紹介します:
**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069084332879462779" dir="auto">
ユースケース 1: 自律型 ML 研究
AI が他 AI のトレーニングレシピを自律的に改善できるでしょうか?
Sakana Fugu (3 minute read) (続き 4/8)
私たちは AutoResearch を用いて、小規模な GPT モデルの改善を Fugu Ultra に委託しました。単一の H100 GPU で 14 時間以上にわたり、Fugu は 100 回を超える実験を実行しました。トレーニングコードを反復的に編集し、テストを実行して、検証エラー率を成功裡に低下させた変更のみを採用しました。
アニメーションをご覧ください。注釈は、バッチサイズ、モデルの深さ、学習率、オプティマイザ設定において、Fugu Ultra が自律的に新たな改善を発見したすべての瞬間を追跡しています。
私たちは Fugu を 3 つの最前線モデル(Gemini 3.1 Pro, Opus 4.8, GPT 5.5)と対決させました。ブランド間の争いではなく、純粋にエージェントとしての振る舞いに焦点を当てるため、これらをモデル A、B、C と匿名化しました。
結果:
• Fugu Ultra(太字の赤色)は、平均パフォーマンスで最高値(0.9774)を記録しました。
• また、Fugu Ultra は実験全体を通じて最高の単一実行結果(0.9748)も達成し、すべてのベースラインを上回りました。
長期にわたるエージェント型機械学習研究において、Fugu を用いて強力なモデル群を動的にオーケストレーションすることは、個々の巨大モデルに依存するよりもはるかに優れた成果をもたらします。
**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069086336955646322" dir="auto">
使用例 2: 金融時系列予測
AI エージェントは、逐次的な市場判断(未来の情報を参照しない)をナビゲートできるでしょうか?
Just for fun, we tested Fugu Ultra on 50 weeks of historical data for an anonymized equity (STOCK_X). Starting with $10,000, the agent processes weekly market data (prices, volume, moving averages, volatility) and decides whether to buy, hold, or sell.
After each action, the next week's price is revealed. The model must adapt purely from feedback, without ever seeing the future.
The Results across five identical 50-week runs:
• Fugu Ultra grew the portfolio to $11,943.22 (a +19.43% mean return).
• The other frontier models (Models A, B, and C) all capped out at less than a +15% return.
(Mandatory disclaimer: Past performance does not guarantee future results, and results may not transfer to other assets, time periods, or live markets.)
**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069088009790861312" dir="auto">
Use Case 3: One-Shot Blindfold Chess
Can an AI hold an entire game state in memory without drifting?
To test Fugu Ultra's persona stability and sustained memory, we had it play 4 back-to-back games of blindfold chess. Every model played the same way: no board shown, requiring them to hold the full game state entirely in memory.
We matched Fugu Ultra against 3 leading frontier models and a 2100-Elo Stockfish engine.
The Results: Fugu Ultra outplayed all 4 opponents. Where the other models eventually drifted or lost track of the board state, Fugu remained accurate, ending every single game in checkmate.
Fugu が他のモデルのミスを突いてその瞬間に有利になる様子を確認するには、以下の完全なシーケンスをご覧ください。

**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069089571208679469" dir="auto">
使用事例 4: 機械式アイリスのコンピュータ支援設計 (CAD)
AI は精密で機能的な機械設計を生成できるのでしょうか?
私たちは Fugu Ultra に、カメラの絞り(アパーチャー)のように複数のブレードが協調して中央の穴をきれいに開閉する機械式アイリスを CAD で作成するよう命じました。
以下のアニメーションをご覧ください。Fugu と 3 つの最先端ベースラインモデルについて、詳細な CAD データと簡略化された構造ビューの両方を示します。
結果:
• Fugu Ultra は非常に機能的な設計を生成しました。ブレードは外側のピンを中心に正しく回転し、絞り(アパーチャー)を完全に開閉しています。
• モデル A、B、C は物理的な論理に失敗し、隙間が生じたり、リンクが弱くなったり、完全な閉鎖ができなかったりしました。
正確な空間精度と構造的推論が求められるタスクでは、単一のモデルに頼るだけでは不十分です。
**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069264211822403772" dir="auto">
使用事例 5: ルービックキューブソルバー
AI はゼロから複雑なアルゴリズムソルバーを記述できるのでしょうか?
私たちは、Fugu Ultra と 3 つの最先端モデルに、単一のプロンプトから純粋な Python で Rubik's Cube(ルービックキューブ)ソルバーを作成するタスクを課しました。市販のソルビングライブラリを使用することは禁止されていました。その後、生成されたプログラムをローカル環境で 300 個のランダムにシャッフルされたキューブに対して実行しました。
この例では、Fugu Ultra のソルバーはゴール到達までの手数が 19 手であるのに対し、Model A(3 つのモデルの中で最良のもの)は 21 手でした。
結果:
• Fugu Ultra と Model A は生成したソルバーが正常に実行され、すべての 300 個のキューブを解決することに成功しました。
• Models B と C は洗練されたコードのように見えるものを出力しましたが、実行時に完全にクラッシュし(0/300)、動作しませんでした。
• Fugu Ultra は明らかに効率的であり、平均手数は 19.72 手に対し Model A は 19.76 手でした。また、300 回のシャッフルすべてを通じて、Fugu Ultra が Model A よりも多くの手数を必要としたケースは一度もありませんでした。
実際に実行可能で効率性を最適化するコード生成においては、単一のモノリスモデルに依存するよりも、複数のエージェントを動的にオーケストレーションする方が優れています。 **
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069265784250290234" dir="auto">
Use Case 6: Classical Japanese Kana Reading Order
これは Sakana AI のローンチにおいて、日本独自の問題なしにはあり得ません。AI は 400 年前の手紙の混沌としたレイアウトを解読できるでしょうか?
1610 年の書簡にある「散書き」の読み順を、モデルが復元できるかどうかを検証しました。この書簡は慶應義塾大学東洋文化研究所に所蔵されています。文字のバウンディングボックスと大まかなルールセットを与えられたモデルには、文字を読むべき正確な順序を予測するコードを書くことが求められました。
以下のクリップでは、緑色の線が専門家の正解(グランドトゥルース)を示し、赤色の線が AI の予測結果です。
結果:
• Fugu Ultra は 0.80 の精度スコアを達成し、極めて複雑な経路をほぼ正確に追跡しました。
• モデル A と B は惨憺たる 0.24 のスコアに終わり、ページ上で wildly に飛び跳ねて誤った順序で読み進めてしまいました。
• モデル C は動作する予測器を生成することに失敗しました。
17 世紀の書道を毎日解読する必要はないかもしれませんが、これは Fugu が極端な空間推論と、全く新しい非線形ロジックを処理する比類なき能力を持っていることを証明しています。
**
• • •
ツイート分析プラットフォーム
このスレッドで一部のツイートが欠落している場合は、
強制的に更新 をお試しください
原文を表示
11,549 views
twitter-profile#error" data-retried="true">
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2068861630327443966" dir="auto">
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API.
Our ‘Fugu Ultra’ model matches the performance of Fable and Mythos, delivering frontier capability without the risk of export controls.
Try it: 🐡sakana.ai/fugu
**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2068862070062485867" dir="auto">
Fugu stands shoulder-to-shoulder with leading models like Fable and Mythos across the industry's most rigorous engineering, scientific, and reasoning benchmarks.
Read the full blog: sakana.ai/fugu-release
Beyond Bigger Models: Why are Orchestration Models the Next Frontier
Progress in AI has been driven largely by giant, monolithic models. But the most powerful systems of the future will be collaborative ecosystems.
Today, this orchestration is no longer just a technical optimization. It has become a geopolitical and operational imperative.
For an organization or a nation, relying on a single company's model for critical infrastructure, finance, or governance is a material vulnerability. This risk is no longer a hypothetical possibility, but a reality.
As we have seen with recent export controls imposed on models like Fable and Mythos, access can disappear overnight.
Collective intelligence is the practical hedge against this concentration of power. Because Fugu orchestrates an underlying pool of swappable agents, it simply routes around vendor restrictions.
By orchestrating the world’s models, we are delivering the resilient blueprint required for true AI sovereignty.
**
*Discover more
Microblogging
App store optimization
Mobile Apps & Add-Ons
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2068862344684581023" dir="auto">
How does it work?
Sakana Fugu is itself an LLM, trained to call various LLMs in an agent pool, including instances of itself recursively. Fugu dynamically orchestrates the world's best models to tackle complex, multi-step tasks.
As shown in this figure, Fugu is a multi-agent system that behaves like a single model. You send a request to one endpoint, and Fugu decides how to handle it internally.
Fugu manages model selection, delegation, verification, and synthesis automatically. It solves tasks directly when that is enough, or coordinates a team of expert models when a problem calls for more. The complexity of a multi-agent system never reaches your code.
At launch, Sakana Fugu comes in two models accessed via a single OpenAI-compatible API:
• Fugu balances strong performance with low latency for everyday work. It fits naturally into tools like Codex for coding, as well as chatbots and interactive services. You can also opt specific agents out of its pool for data compliance.
• Fugu Ultra is our flagship model tuned for maximum answer quality on hard, multi-step problems. It coordinates a deeper pool of expert agents for demanding work like AI research, cybersecurity analysis, and patent investigations.
*
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069079051239874657" dir="auto">
Benchmarks tell only part of the story.
Fugu’s real value shows up in long, messy, real-world workflows. During our beta with 500 users, we saw Fugu Ultra drive meaningful progress in fully automated tasks from data science to complete cybersecurity assessments.
Our early users saw Fugu explore, interpret failures, and sustain progress with almost zero human intervention. The feedback has been incredible. Here is what they are saying:
**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069084332879462779" dir="auto">
Use Case 1: Autonomous ML Research
Can an AI autonomously improve another AI’s training recipe?
We tasked Fugu Ultra with improving a small GPT model using AutoResearch. Over 14 hours on a single H100 GPU, Fugu ran > 100 experiments. It iteratively edited the training code, ran tests, and kept any changes that successfully lowered the validation error rate.
Watch the animation. The callouts track every time Fugu Ultra autonomously discovered a new improvement across batch size, model depth, learning rates, and optimizer settings.
We pitted Fugu against three frontier models (Gemini 3.1 Pro, Opus 4.8, and GPT 5.5). To keep the focus purely on agentic behavior rather than brand wars, we anonymized them as Models A, B, and C.
The Results:
• Fugu Ultra (bold red) finished with the best mean performance (0.9774).
• Fugu Ultra also achieved the best single run of the entire experiment (0.9748), leading every single baseline.
For long horizon, agentic ML research, using Fugu to dynamically orchestrate a pool of strong models significantly outperforms relying on any individual monolithic model.
**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069086336955646322" dir="auto">
Use Case 2: Financial Time Series Prediction
Can an AI agent navigate sequential, no-look-ahead market decisions?
Just for fun, we tested Fugu Ultra on 50 weeks of historical data for an anonymized equity (STOCK_X). Starting with $10,000, the agent processes weekly market data (prices, volume, moving averages, volatility) and decides whether to buy, hold, or sell.
After each action, the next week's price is revealed. The model must adapt purely from feedback, without ever seeing the future.
The Results across five identical 50-week runs:
• Fugu Ultra grew the portfolio to $11,943.22 (a +19.43% mean return).
• The other frontier models (Models A, B, and C) all capped out at less than a +15% return.
(Mandatory disclaimer: Past performance does not guarantee future results, and results may not transfer to other assets, time periods, or live markets.)
**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069088009790861312" dir="auto">
Use Case 3: One-Shot Blindfold Chess
Can an AI hold an entire game state in memory without drifting?
To test Fugu Ultra’s persona stability and sustained memory, we had it play 4 back-to-back games of blindfold chess. Every model played the same way: no board shown, requiring them to hold the full game state entirely in memory.
We matched Fugu Ultra against 3 leading frontier models and a 2100-Elo Stockfish engine.
The Results: Fugu Ultra outplayed all 4 opponents. Where the other models eventually drifted or lost track of the board state, Fugu remained accurate, ending every single game in checkmate.
Watch the full sequence below to see Fugu capitalize the moment the other models slip.

**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069089571208679469" dir="auto">
Use Case 4: Computer Aided Design of Mechanical Iris
Can an AI generate precise, functional mechanical designs?
We tasked Fugu Ultra with creating a mechanical iris in CAD, similar to a camera aperture where multiple blades must move together to cleanly open and close a central hole.
Watch the animation below. We show both the detailed CAD and a simplified structural view for Fugu and the three frontier baselines.
The Results:
• Fugu Ultra generated a highly functional design. The blades rotate correctly around outer pins to fully open and close the aperture.
• Models A, B, and C failed the physical logic, resulting in gaps, weak linkages, and incomplete closure.
When a task demands exact spatial precision and structural reasoning, relying on a single model is simply not enough.
**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069264211822403772" dir="auto">
Use Case 5: Rubik’s Cube Solver
Can an AI write complex algorithmic solvers from scratch?
We tasked Fugu Ultra and three frontier models with writing a Rubik’s Cube solver in pure Python from a single prompt. No off-the-shelf solving libraries were allowed. We then ran the resulting programs locally on 300 randomly scrambled cubes.
In this example, Fugu Ultra’s solver reaches the goal in 19 moves compared to Model A (best of the three models)’s 21 moves.
The Results:
• Fugu Ultra and Model A generated solvers that successfully ran and solved all 300 cubes.
• Models B and C shipped sophisticated-looking code that completely crashed on execution (0/300).
• Fugu Ultra was strictly more efficient, averaging 19.72 moves versus Model A’s 19.76, and never requiring a single move more than Model A across all 300 scrambles.
For code generation that actually executes and optimizes for efficiency, dynamically orchestrating multiple agents beats relying on a single monolithic model.
**
thread#showTweet" data-screenname="SakanaAILabs" data-tweet="2069265784250290234" dir="auto">
Use Case 6: Classical Japanese Kana Reading Order
It would not be a Sakana AI launch without a uniquely Japanese challenge. Can an AI decipher the chaotic layout of a 400-year-old letter?
We tested whether the models could recover the reading order of "scattered writing" (chirashigaki) in a letter from 1610. This letter is held by the Keio Institute of Oriental Classics. Given character bounding boxes and a rough set of rules, the models had to write code to predict the exact order the characters should be read.
In the clip below, the green line is the expert ground truth. The red line is the AI’s prediction.
The Results:
• Fugu Ultra achieved a 0.80 accuracy score, tracing the highly complex path almost exactly.
• Models A and B scored a dismal 0.24, jumping wildly and incorrectly all over the page.
• Model C failed to produce a working predictor at all.
You might not decode 17th-century calligraphy every day, but this proves Fugu’s unparalleled ability to handle extreme spatial reasoning and completely novel, non-linear logic.
**
• • •
Tweet analysis platform
Missing some Tweet in this thread? You can try to
関連記事
Sakana AI、フロントティア LLM を柔軟にルーティングするオーケストレーションモデル「Sakana Fugu」を発表
Sakana AI は、単一のエンドポイントからリクエストを受け付け、タスクの複雑さに応じて直接処理するか複数の専門モデルを協調させるマルチエージェントシステム「Sakana Fugu」を発表した。これは OpenAI 互換 API を提供し、背後で複数の最先端 LLM を動的にルーティングする仕組みである。
Sakana AI の「Fugu」がベンダーロックインを緩和するマルチエージェントモデルとして登場
日本のAI企業サカナ・エーアイは、単一ベンダー依存によるリスクを軽減するため、多様なモデルを呼び出してタスクを遂行するオーケストレーション言語モデル「Fugu」を発表した。ユーザーは1つのエンドポイントからこのエコシステムにアクセスできる。
2026 年版生成 AI コーディングツール比較:16 の最良ツールと特徴、最適な用途
MarkTechPost は、ソフトウェア構築を再定義した生成 AI ツールの中から、2026 年に最も優れた 16 のツールを選定し、各機能や開発者への適合性を比較して紹介している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み