Sakana Fugu、Claude 禁止後に LiveCodeBench で 93.2 のスコアを記録しリリース
Sakana AI が開発した「Fugu」モデルは、Claude の利用制限後に公開され、LiveCodeBench ベンチマークで 93.2 という驚異的なスコアを記録し、小規模モデルの性能限界を示した。
キーポイント
Sakana AI の新モデル「Fugu」発表
Sakana AI が Claude の利用制限後に公開した新しいコード特化モデル「Fugu」について、その性能が注目されている。
LiveCodeBench での驚異的スコア達成
Fugu は LiveCodeBench ベンチマークで 93.2 という極めて高いスコアを獲得し、大規模モデルに匹敵するコード生成能力を示した。
小規模モデルの性能向上を示唆
この成果は、必ずしも巨大なパラメータ数だけが高性能を決定するわけではなく、効率的なアーキテクチャや学習手法の重要性を浮き彫りにしている。
Claude 規制後の市場動向
Claude の利用制限という背景の中で、代替モデルとしての Fugu が即座に高い評価を得たことは、市場の多様化ニーズを反映している。
影響分析・編集コメントを表示
影響分析
このニュースは、AI モデルの開発において「パラメータ数の多さ」から「効率性とアーキテクチャの最適化」へと焦点が移りつつあることを示す重要な転換点です。特に Claude の利用制限という文脈で小規模モデルが即座に高い評価を得たことは、開発者がコストとパフォーマンスのバランスを重視し始めている現実を反映しており、今後の AI エコシステムの多様化を加速させる要因となるでしょう。
編集コメント
Claude の規制という追い風の中で、Sakana AI が小規模モデルで驚異的な成果を上げた点は、業界の「大が必ずしも良しではない」というパラダイムシフトを象徴しています。開発現場における実用性の観点からも、今後の注目すべき動向です。
Sakana AI は、Anthropic が Fable 5 および Mythos 5 のアクセスを停止させた後に「Fugu」を発表しました。Fugu Ultra は LiveCodeBench で Fable を上回り、入力トークン 100 万あたり 5 ドルから利用可能ですが、このサービスは AI スタックの中心にあるブラックボックス型ルーティングに購入者の信頼を求めています。
機械学習 & 人工知能
Sakana AI は今週、「Fugu」と「Fugu Ultra」https://sakana.ai/fugu-release/?ref=implicator.ai をリリースし、Anthropic が米政府の指令により Claude Fable 5 および Claude Mythos 5 へのアクセスを停止せざるを得ないと発表したことで、同社のマルチエージェントオーケストレーション研究を商用 API として提供しました。Sakana によると、Fugu Ultra は LiveCodeBench で 93.2 のスコアを記録し、Fable 5 の 89.8 を上回っており、科学およびソフトウェアのベンチマークでは複数のトップモデルと同等かそれ以上の性能を発揮しています。東京に拠点を置く同社は、顧客を特定のプロバイダーに縛り付けるのではなく、モデル群に対してワークロードを分散させる単一のエンドポイントとしてこのサービスを販売しています。
Anthropic は 6 月 12 日 に、国家安全保障当局の根拠に基づき米政府が外国籍者(Anthropic の従業員を含む)に対する Fable 5 および Mythos 5 へのアクセスを停止するよう指示したと発表しました。同社はコンプライアンスのために顧客に対してモデルの使用を無効化せざるを得なかったとし、他の Anthropic モデルへのアクセスには影響がないとしています。Sakana の共同創設者兼 CEO の David Ha は、この混乱を Fugu にとっての商業的な機会として捉えています。
"国家インフラストラクチャのために単一企業のモデルに依存することは、大きなリスクである」とハ氏は VentureBeat によると X で書いた。「Fugu は、完全に交換可能なエージェントプールに依存することで、ベンダーの制限を迂回するだけだ」。
主要なポイント
- Sakana AI は、マルチモデルオーケストレーションのための一つの API として Fugu と Fugu Ultra をリリースした。
- Fugu Ultra は LiveCodeBench で 93.2 のスコアを獲得し、Claude Fable 5 の 89.8 を上回った。
- サービスは、入力トークン 100 万あたり 5 ドル、出力トークン 100 万あたり 30 ドルから開始される。
- 批判者らは、Fugu がブラックボックスを追加するものだと指摘している。なぜなら、ユーザーは各タスクを処理するモデルを確認できないからだ。
AI 生成の要約(編集者のレビュー済み)。当社の AI ガイドラインの詳細はこちら。
機械学習 & 人工知能
Sakana が LiveCodeBench で 93.2 を記録
Sakana は Fugu を、自身を含む他の言語モデルを呼び出し、いつ委任し、検証し、組み合わせるかを決定するように訓練された言語モデルとして説明している。同社は、このシステムが ICLR 2026 の論文「TRINITY」と「Conductor」に基づいていると述べており、これらは固定ワークフローを使用するのではなく、専門的なエージェントにタスクを割り当てるコーディネーターモデルを訓練したものである。
ベンチマークに関する主張がこの発表の中心にある。Sakana によると、Fugu Ultra は SWE-Bench Pro で 73.7 のスコアを獲得し、Anthropic の Claude Opus 4.8(69.2)や OpenAI の GPT-5.5(58.6)を上回ったが、制限された Fable 5 のスコアである 80.0 には及ばなかった。GPQA-Diamond では、Fugu と Fugu Ultra はそれぞれ 95.5 を獲得し、Sakana が Mythos Preview に帰属させた 94.6 を上回った。
スコアには、Sakana 自身が注記している通り、ある条件付きの注意が必要です。Fable 5 と Mythos Preview は、公開されていないため Fugu のエージェントプールに含まれておらず、また Sakana は特定の要求に対してどのモデルを使用するかについても開示していません。The Verge のリチャード・ローラーは、この提案は他のフロンティアモデルをより慎重に利用するものであり、顧客がどのモデルが作業のどの部分を担当したかを確認できない状態になることを指摘しました。
Fugu Ultra は 100 万トークンあたり入力 5 ドルからスタートします
Sakana は 2 つのバージョンを提供しています。Fugu はコーディング、チャット、低遅延ワークロード向けに設計されており、Fugu Ultra は AI 研究、論文再現、サイバーセキュリティ評価、特許検索といったより困難なタスク向けに設計されています。両方とも OpenAI と互換性のある API を通じて利用可能です。
機械学習 & 人工知能
Sakana のドキュメント(VentureBeat が引用)によると、Fugu Ultra は 100 万トークンあたり入力 5 ドル、出力 30 ドルからスタートし、キャッシュされた入力は 100 万トークンあたり 50 セントです。コンテキストが 272,000 トークンを超過する場合は、Ultra の料率は 100 万トークンあたり入力 10 ドル、出力 45 ドル、キャッシュされた入力 1 ドルに引き上げられます。
標準的な Fugu サービスは、ワークフロー内のすべてのエージェントに対して課金を積み重ねるのではなく、リクエストに対してアクティブ化された最上位の基盤モデルに基づいた変動価格制を採用しています。Sakana はまた、企業ユーザーがルーティングプールから特定のプロバイダーやモデルを除外したり、将来のトレーニングのためのプロンプト使用を拒否したりできると述べています。同社はデータコンプライアンスの問題に取り組んでいる間、EU および EEA ではサービスを提供していません。
Implicator.ai をあなたのメールボックスへ
サンフランシスコからの戦略的 AI ニュース。過剰な期待や「AI がすべてを変える」といった前置きはなし。何が変わり、誰が勝ち、なぜそれが重要なのかだけを伝えます。毎日 PST 午前 6 時配信。
メールアドレス
ご自身のメールボックスを確認し、リンクをクリックして確認してください。
スパムは送りません。いつでも購読解除可能です。
批判者はブラックボックスを指摘
Sakana は、Fugu のローンチ前に約 500 人のベータユーザーがテストに参加し、コードレビュー、セキュリティ評価、特許検索、自動化された研究などの用途で利用されたと報告しています。OfficeChai は、AutoResearch の実行事例として、Fugu Ultra が 1 つの H100 GPU で 14 時間かけて 123 回のトレーニング実験を実行したと引用しました。
外部テスターからは結果は賛否両論です。VentureBeat は Mark Studios のマーク・サントス氏を引用し、Three.js ゲームビルドにおいて Fugu Ultra と Claude Opus 4.8 を比較しました。サントス氏は、Fugu Ultra が 22 分で完了し、約 89,000 トークンを使用し、コストは約 7.32 ドルだったのに対し、Opus は 79 分かかり、約 940,000 トークンを使用してコストはほぼ 37.85 ドルに達したと述べています。しかし、最終的なアプリケーション設計と機能においては Opus の方が優れていると判断しました。
Prime Intellect の研究エンジニアである Elie Bakouch は、Sakana の主権に関する枠組みに異議を唱えました。VentureBeat によると、彼は X で「これはクローズドソースのモデルの上に構築されたクローズドソースのオーケストレーターだ」と書き込みました。「以前はモデル自体を制御していなくても、今ではどのモデルが使用されるか、またその利用量さえも制御できないのです。」
Sakana の次の試練はベンチマークではなく採用です。同社は将来的にオープンソースモデルと自社開発のモデルをプールに追加していく方針を示しており、商用版は現在、制限されている欧州地域以外で一般提供されています。Fugu を検討する顧客は、単一のモデルプロバイダーへの依存度を下げるために、もう一つのブラックボックスを受け入れることが許容される代償かどうかを判断する必要があります。
よくある質問
Sakana Fugu とは何ですか?
Sakana Fugu は、1 つの OpenAI 互換エンドポイントの背後で複数の言語モデルを調整する Sakana AI の商用 API です。このシステムは、モデルプール間で作業の委任、検証、統合を行うタイミングを決定します。
Fugu Ultra は LiveCodeBench でどのように評価されましたか?
Sakana によると、Fugu Ultra は LiveCodeBench で 93.2 点を獲得し、標準版の Fugu は 92.9 点、Anthropic の Claude Fable 5 は同じコーディングベンチマークで 89.8 点でした。
なぜ Anthropic の指示が重要なのでしょうか?
Anthropic は 6 月 12 日、米国政府の指令により、外国人に対する Fable 5 および Mythos 5 のアクセスを停止し、顧客がコンプライアンスに対応できるようモデルを無効化する必要があると発表しました。
Fugu Ultra の利用料はいくらですか?
Fugu Ultra は、入力トークン 100 万あたり 5 ドル、出力トークン 100 万あたり 30 ドルからスタートします。コンテキスト長が 272,000 トークンを上回る場合、料金は入力 100 万あたり 10 ドル、出力 100 万あたり 45 ドルに引き上げられます。
Fugu の主な批判点は何ですか?
批評家らは、Fugu がプロプライエタリ(独自)であり、どの基盤モデルがリクエストを処理するかを開示していないと指摘しています。これにより特定のベンダーへの依存は減る一方で、新たなブラックボックス層が追加されることになります。
AI 生成による要約で、編集者がレビュー済みです。AI ガイドラインの詳細はこちら。
AI モデルが連携して動作するシステムは、単独システムよりも 30% 高い性能を発揮する——Sakana の研究が明らかに。日本の研究者らが、AI モデルはチームとして機能した方が個人で動く場合より優れていることを証明し、パフォーマンスを 30% 向上させる成果を得ました。TreeQuest を利用すれば、企業は特定の AI プロバイダーに依存せず、複数の異なる AI プロバイダーを組み合わせて活用することが可能になります。
The Implicator](https://www.implicator.ai/ai-models-working-in-concert-outperform-solo-systems-by-30-percent-sakana-study-finds/)
OpenClaw の創設者、ピーター・シュタインバーガー氏は、Anthropic が開発者を Claude の消費者向けサブスクリプションから引き離し、API キーの利用へと誘導していると指摘しています。
The Implicator](https://www.implicator.ai/openclaw-creator-says-anthropic-is-pushing-developers-off-claude-subscriptions/)
あなたは 5 人の高価な AI インターンを管理しているのです。Anthropic のマルチエージェント機能「Claude Code」を使えば、開発者は複数のアシスタントを同時に実行できますが、トークン使用料の明細を見ると、誰が実際に恩恵を受けているのかは別の物語を語っています。
The Implicator](https://www.implicator.ai/youre-not-a-10x-developer-youre-managing-five-expensive-ai-interns/)
## マルクス・シューラー
サンフランシスコ
インプリケーター・エーアイの編集長兼創設者。元 ARD 特派員で、10 年以上にわたりテクノロジー分野を取材してきたシニア放送ジャーナリスト。政策および市場動向に関する毎日のブリーフィング記事を執筆。サンフランシスコ在住。
E-mail: editor@implicator.ai
The Morning Briefing
## メールボックスで朝のブリーフィングを受け取る。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
{"translation": "翻訳全文"}
無料の朝刊ニュースレターと会員限定記事にご登録ください。有料の週刊プロブリーフィングのみ、月額 8 ドルでご利用いただけます。
Claude の禁止措置後、Sakana Fugu は LiveCodeBench で 93.2 というスコアを記録し、ついにローンチしました(3 分でお読みいただけます)。
この開発は、大規模言語モデルのコード生成能力における新たな転換点を示すものです。特に、Claude の利用制限が課された直後の状況下で、Sakana Fugu が高いパフォーマンスを発揮したことは注目に値します。
LiveCodeBench は、プログラミング問題に対するモデルの解決能力を評価するベンチマークです。93.2 というスコアは、現在の最先端モデル群の中でも極めて高い水準を示しています。
この成果は、Sakana Fugu が持つ独自のアーキテクチャと学習手法が、複雑なコード生成タスクにおいて効果的であることを裏付けています。
開発チームは、今後のアップデートを通じて、さらに多様なプログラミング言語やフレームワークへの対応を強化していく方針です。
ユーザーにとっては、Claude の制限下でも高品質なコード支援ツールを利用できる新たな選択肢が生まれました。
技術コミュニティからは、この発表に対する期待と注目が集まっています。今後は、実際の開発現場での活用事例も注目されるでしょう。
Sakana Fugu のローンチは、AI によるソフトウェア開発支援の未来を形作る重要な一歩となりました。
原文を表示
Sakana AI released Fugu after Anthropic suspended Fable 5 and Mythos 5 access. Fugu Ultra beat Fable on LiveCodeBench and starts at $5 per million input tokens, but the service asks buyers to trust a black-box router at the center of their AI stack.
MachineLearning & Artificial Intelligence
Sakana AI released Fugu and Fugu Ultra this week, turning its multi-agent orchestration research into a commercial API after Anthropic said a US government directive forced it to suspend access to Claude Fable 5 and Claude Mythos 5. Sakana said Fugu Ultra scored 93.2 on LiveCodeBench, ahead of Fable 5's 89.8, and matched or beat several top models on science and software benchmarks. The Tokyo company is selling the service as one endpoint that can route work across a pool of models instead of tying a customer to one provider.
Anthropic announced on June 12 that the US government, citing national security authorities, directed it to suspend access to Fable 5 and Mythos 5 by foreign nationals, including Anthropic employees. The company said it had to disable the models for customers to comply, while access to other Anthropic models would remain unaffected. Sakana co-founder and Chief Executive David Ha framed that disruption as the commercial opening for Fugu.
"Relying on a single company's model for national infrastructure is a massive risk," Ha wrote on X, according to VentureBeat. "Fugu simply routes around vendor restrictions by relying on an entirely swappable agent pool."
Key Takeaways
- Sakana AI released Fugu and Fugu Ultra as one API for multi-model orchestration.
- Fugu Ultra scored 93.2 on LiveCodeBench, ahead of Claude Fable 5 at 89.8.
- The service starts at $5 per million input tokens and $30 per million output tokens.
- Critics say Fugu adds another black box because users cannot see which models handle each task.
AI-generated summary, reviewed by an editor. More on our AI guidelines.
MachineLearning & Artificial Intelligence
Sakana posts 93.2 on LiveCodeBench
Sakana describes Fugu as a language model trained to call other language models, including instances of itself, and to decide when to delegate, verify and combine work. The company said the system builds on two ICLR 2026 papers, TRINITY and Conductor, which trained coordinator models to assign tasks to specialized agents instead of using fixed workflows.
The benchmark claims are the center of the launch. Sakana said Fugu Ultra scored 73.7 on SWE-Bench Pro, ahead of Anthropic's Claude Opus 4.8 at 69.2 and OpenAI's GPT-5.5 at 58.6, while trailing the restricted Fable 5 score of 80.0. On GPQA-Diamond, Fugu and Fugu Ultra each scored 95.5, above the 94.6 Sakana attributed to Mythos Preview.
The scores come with a caveat Sakana itself notes. Fable 5 and Mythos Preview are not in Fugu's agent pool because they are not publicly accessible, and Sakana has not disclosed which models Fugu uses for a given request. The Verge's Richard Lawler noted that the pitch amounts to using other frontier models more carefully, while leaving customers without a view into which model performed which part of the work.
Fugu Ultra starts at $5 per million input tokens
Sakana is offering two versions. Fugu is aimed at coding, chat and lower-latency work; Fugu Ultra is aimed at harder tasks such as AI research, paper reproduction, cybersecurity assessment and patent search. Both are available through an OpenAI-compatible API.
MachineLearning & Artificial Intelligence
Fugu Ultra starts at $5 per million input tokens and $30 per million output tokens, with cached input priced at 50 cents per million tokens, according to Sakana's documentation cited by VentureBeat. For contexts above 272,000 tokens, the Ultra rate rises to $10 per million input tokens, $45 per million output tokens and $1 per million cached input tokens.
The standard Fugu service uses variable pricing based on the highest-tier underlying model activated for a request, rather than stacking charges for every agent in the workflow. Sakana also says enterprise users can exclude specific providers or models from the routing pool and can opt out of prompt use for future training. The service is not available in the EU or EEA while the company works through data compliance issues.
Get Implicator.ai in your inbox
Strategic AI news from San Francisco. No hype, no "AI will change everything" throat clearing. Just what moved, who won, and why it matters. Daily at 6am PST.
Email address
Check your inbox. Click the link to confirm.
No spam. Unsubscribe anytime.
Critics point to the black box
Sakana said nearly 500 beta users tested Fugu before launch, with reported uses in code review, security assessment, patent search and automated research. OfficeChai cited an AutoResearch run in which Fugu Ultra ran 123 training experiments over 14 hours on one H100 GPU.
Outside testers have reported mixed results. VentureBeat cited Mark Santos of Mark Studios, who compared Fugu Ultra and Claude Opus 4.8 on a Three.js game build. Santos said Fugu Ultra finished in 22 minutes, used about 89,000 tokens and cost roughly $7.32, while Opus took 79 minutes, used about 940,000 tokens and cost nearly $37.85. He still judged Opus better on final application design and function.
Elie Bakouch, a research engineer at Prime Intellect, objected to Sakana's sovereignty framing. "This is a closed source orchestrator on top of closed source models," he wrote on X, according to VentureBeat. "If before you didn't control the models, now you don't even control which ones are used or how much."
Sakana's next test is adoption rather than another benchmark. The company says it will add open models and its own models to the pool over time, and the commercial version is now generally available outside the restricted European regions. Customers weighing Fugu will have to decide whether one more black box is an acceptable price for less dependence on any single model provider.
Frequently Asked Questions
What is Sakana Fugu?
Sakana Fugu is a commercial API from Sakana AI that coordinates multiple language models behind one OpenAI-compatible endpoint. The system decides when to delegate, verify and combine work across its model pool.
How did Fugu Ultra perform on LiveCodeBench?
Sakana said Fugu Ultra scored 93.2 on LiveCodeBench, while standard Fugu scored 92.9 and Anthropic's Claude Fable 5 scored 89.8 on the same coding benchmark.
Why does the Anthropic directive matter?
Anthropic said on June 12 that a US government directive required it to suspend Fable 5 and Mythos 5 access for foreign nationals and disable the models for customers to comply.
How much does Fugu Ultra cost?
Fugu Ultra starts at $5 per million input tokens and $30 per million output tokens. For contexts above 272,000 tokens, the rate rises to $10 input and $45 output per million tokens.
What is the main criticism of Fugu?
Critics note that Fugu is proprietary and does not disclose which underlying models handle a request. That can reduce dependence on one vendor while adding a new black-box layer.
AI-generated summary, reviewed by an editor. More on our AI guidelines.
Marcus Schuler
San Francisco
Editor-in-Chief and founder of Implicator.ai. Former ARD correspondent and senior broadcast journalist with 10+ years covering tech. Writes daily briefings on policy and market developments. Based in San Francisco.
E-mail: editor@implicator.ai
The Morning Briefing
Get the Morning Briefing in your inbox.
Sign up to our free daily morning newsletter and free member articles. Only our special weekly Pro Briefing is available for $8/month.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み