OpenRouterのFusionの考え方をClaude Codeに取り入れてみた
はじめに
皆様こんにちは。
Algomaticのエンジニアの伊藤です。
今回は『Algomatic 初夏のアドベントカレンダー』の13日目となります。
前回の記事では私と同じく組織変革本部所属の斎藤がAI時代の人事について語っていました。
興味がある方はぜひこちらもご覧ください。
さて、みなさんClaude Fable 5使ってみましたか?
私はあんまり使う暇がないうちに使えなくなってしまいました…
と、ちまたのFable 5への評判を見ながら残念に思っていたところ、XでOpenRouterのFusionについての話が流れてきました。
なんでも、Fable 5と同等以上のパフォーマンスが出せるとのことで、気になってFusionについてのドキュメントを見てみると意外とシンプルな考え方でした。
そこで、Claude CodeでもこのFusionの仕組みが再現できるのでは?と思い、実際に試してみました。
OpenRouterの Fusion は、単一のLLMに回答を任せるのではなく、複数のモデルを並列に動かし、それぞれの回答を比較・分析したうえで最終回答を生成する「マルチモデル協調」型の仕組みです。
Fusionの重要な点は、単なる多数決ではないことです。複数モデルの回答を機械的に混ぜるのではなく、パネルと呼ばれるモデルが回答を出力した後、ジャッジと呼ばれるモデルが回答を横断的に見て「どの点が一致しているか」「どこに矛盾があるか」「一部のモデルだけが触れた重要論点は何か」「全モデルが見落としている可能性がある点は何か」を整理します。これにより、モデル単体の場合よりも優れた回答を得ることができます。
Fusionの処理フロー([https://openrouter.ai/docs/guides/routing/routers/fusion-routerより引用)](https://cdn-ak.f.st-hatena.com/images/fotolife/k/kito_algomatic/20260617/20260617091109.png)
この話だけ聞いたとき、いろんな観点の回答を統合することが精度につながりそうなので、様々な種類のモデルを使うのが良いのだろうか、と最初は思いました。
しかし、興味深いことに、Fusionは同じ種類のモデルどうしの協調でも性能向上が期待できるようです。
実際、公式が出しているDRACO(Deep Researchタスクのベンチマーク)の結果を見てみると、Claude Fable 5単体とOpus4.8を協調させた場合のスコアがほぼ同等となっています。
単体モデルとFusionのDRACOベンチマークの結果([https://openrouter.ai/blog/announcements/fusion-beats-frontier/より引用)](https://cdn-ak.f.st-hatena.com/images/fotolife/k/kito_algomatic/20260617/20260617091207.png)
後述しますが、実際私が行った実験でOpus 4.8のみでFusion風のワークフローを実行した際も、様々な観点から回答を生成することができていました。
FusionはLLMのランダム性をうまく活用できる手法のようです。
ただし、Fusionが万能な手法というには早計なようです。Claude Fable 5級の性能を発揮することがわかっているのは現時点ではDeep Researchタスクのみですし、複数のモデルを使うのでトークンコストも馬鹿になりません。
それでも、Deep Researchのように「正確性・網羅性・多面的な検討」が価値の中心になる領域では、単純なコスト増以上のリターンが期待できるのではないでしょうか?
コーディング分野だと、ちょうどPlanモードにおける計画タスクなんかがまさに該当しそうです。
ということで、今回はClaude CodeでFusion風のワークフローを実行するスキルを作って単体のモデルの場合と比べてみました。
Claude Code用Fusion風スキル
今回作成したFusion風スキル(/fusion)はスキル本体と2種類のサブエージェントで構成しています。
① fusionスキル本体
/fusion <課題文> でワークフロー全体を起動します。このスキル自体は下記の2つの役割を担います。
- 課題文を一字一句変えずにfusion-judgeサブエージェントへ渡す
- judge から返ってきた「各回答」と「比較分析」を材料に、最終回答を1本に統合して書く
元のFusionにおいて回答と分析結果を見て最終回答を行う部分に相当します。
② fusion-judgeサブエージェント
fusionスキルから課題を委譲され、回答の取りまとめと比較分析を担当します。このサブエージェントは下記の役割を担います。
- 同じ課題文を、複数の回答者(fusion-panelistサブエージェント)に並列で解かせる
- 集まった回答を横断して、次の5観点で比較分析する
一致した点(確度が高い)
- 食い違う点
- どの回答にも抜けている点
- ある回答だけが挙げた着想
- 全員が見落としている可能性のある点
重要なのは、このサブエージェント自身は最終回答を書かないことです。返すのは「各回答者の回答」と「比較分析」の2つだけで、統合はスキル本体に任せます。読み取り専用なので、ファイルを書き換えることもありません。
元のFusionにおけるJudge部分に相当します。
③ fusion-panelistサブエージェント
fusion-judgeサブエージェントから起動される内部ワーカーです。このサブエージェントは下記の役割を担います。
- 全員が完全に同じ課題文を受け取り、互いに相談せず独立して1本の回答案を作る
- 読み取り専用(Read / Grep / Glob / WebSearch / WebFetch のみ)とし、提案の前にコードや事実を調べたうえで書く
元のFusionにおけるPanel部分に相当します。
これら3つが連携することでFusionのワークフローを再現しています。
ヴァンサバ風ゲームを作らせてみる
この/fusionスキルの効果を確認するため、同じプロンプトでブラウザで動作するゲームを作らせて結果を比較してみました。
XでVampire Survivors(通称ヴァンサバ)風のゲームをLLMに作らせている方を何人か見かけたので、私も今回のテーマとしてみます。
Vampire Survivorsを知らない方に簡単にゲーム内容を説明すると、「大量の敵に囲まれながら、制限時間まで生き残る」タイプのアクションゲームで、以下のような特徴を持っています。
- プレイヤーはキャラを操作して移動し、敵に近づかれないように立ち回る必要がある
- 攻撃はオートで発動し、プレイヤーは主に位置取りだけに集中
- 敵を倒して経験値を拾い、レベルアップすると武器や特殊効果を選んでキャラクターを強化可能
実験条件
今回の比較では、シンプルなプロンプトに対して、/fusionスキルの有無で結果がどう変わるかを比較しています。
条件は下記のようにしています。
- 最初に与えるプロンプトは「ヴァンサバ風のゲームを作ってください」
- モデルはClaude Opus 4.8を使用
/fusionではClaude Opus 4.8をPanelとして3つ、Judgeとして1つ呼び出し
- Reasoning Effortはxhigh
- 最初にPlanモードで実装計画を立てさせ、計画の修正なしで承認して実装させる
Claude Opus 4.8単体での結果
まず、Claude Opus 4.8単体での結果です。
見た目はかなりシンプルですが、ゲームとして成り立っており、特に破綻はない結果となりました。
技術スタックとしてはHTML + Javascriptというシンプルな構成でした。



Fusion風スキルでの結果
一方、Fusion風スキルでの結果はというと、デザイン面は大差ないどころかトップ画面で文字が枠からはみ出しているなど、少し劣るような結果となってしまいました。一方で、ゲームとしての機能面はかなり充実しており、複数のキャラクターが選択できる、Opus 4.8単体の時よりもレベルアップ時の強化の種類が多い、シンプルで単調だがBGMや効果音がついている、複数種類の敵(なんとボスまで実装されている!)が大量に出現し、難易度も歯ごたえがあるものとなっている、セーブデータを保存して、これまでの戦績に応じてキャラクターをアップグレードできるなど、トータルでの完成度はFusion風スキルのほうが優れている結果となりました。
技術スタックとしてはTypeScript + Viteが採用されていますが、実は/fusion内で出ていたPanelからの回答では、以下の3つの案が出ていました。
- 回答1: TypeScript + Vite + 素のCanvas(拡張・テスト容易の中間案)
- 回答2: TypeScript + Phaser 3 + Vite(既製機能で機能盛りやすい)
- 回答3: 単一HTMLファイル + 素のCanvas(ビルド不要・即遊べる、動作コード同梱)
/fusionを使うことで、これらの回答からテスト方式や効率的なアーキテクチャといった良い点を抜き出して計画を立てることができていました。
さらにJudgeがこれら回答から抜け落ちている観点としサウンドやセーブ機能などについて指摘した結果、機能の充実につながったようです。



まとめ
今回はOpenRouterのFusionの考え方をClaude Codeに取り入れたスキルを作成し、効果を試してみました。
定性的な評価とはなりましたが、Fusionの考え方はシンプルなわりに、大きな効果を生み出せていると感じました。
Fusionを使ってツール呼び出しなどを直接行えるわけではないので、Claude Fable 5の完全な代替となるわけではないですが、コーディングタスクで重要な計画フェーズでの有効性が確認できたので、個人的に満足できました。
皆さんもぜひ試してみてはいかがでしょうか?
エンジニアを募集しています!
ここまで読んでいただきありがとうございました!
Algomatic では、「AI革命で人々を幸せにする」をミッションに、変化の速い領域でも 学びや試行錯誤を続けられる エンジニアを募集しています。
もし少しでもご興味をお持ちいただけましたら、カジュアル面談に足を運んでいただけるとうれしいです!
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み