AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
MarkTechPost·2026年6月16日 07:32·約12分で読める

Sakana AI が企業向けエージェント「Sakana Marlin」を商用化、最大100ページの調査報告書とスライドを生成

#AB-MCTS#Reasoning#Enterprise Agent#Sakana AI#Autonomous Research
TL;DR

東京の Sakana AI が、推論時間計算量を用いた AB-MCTS アルゴリズムを採用した自律型研究エージェント「Sakana Marlin」を商用化し、数時間の処理で百ページ規模の戦略レポートとスライドを生成する B2B サービスを開始した。

AI深層分析2026年6月16日 08:02
4
重要/ 5段階
深度40%
5
関連度30%
4
実用性20%
4
革新性10%
5

キーポイント

1

AB-MCTS 技術の商用実装

Sakana AI の研究「Wider or Deeper?」で提案された適応的分岐モンテカルロ木探索(AB-MCTS)を基盤とし、LLM の推論時間を広さ(候補生成)と深さ(洗練)で動的に最適化する技術を実用化。

2

自律型エージェントの機能

チャットボットではなく、単一のトピック入力から数時間かけて仮説立案、情報収集、検証を自律的に行い、60〜100ページの構造化レポートと画像生成 AI によるスライドデッキを出力する。

3

マルチ LLM 協調と実績

o4-mini、Gemini 2.5 Pro、DeepSeek-R1 など複数のモデルを状況に応じてルーティングするマルチ LLM バリアントを採用し、ARC-AGI-2 実験で単一モデルより高いタスク解決率(約 27.5%)を示した。

4

主要企業との提携と投資

2026 年 4 月のクローズドベータで約 300 名の専門家が戦略策定や市場調査などの実務タスクに使用し、MUFG とパートナーシップを結び、Citigroup から戦略的投資を受けた。

5

AB-MCTS の動的戦略

Sakana AI が開発した AB-MCTS は、検索プロセスにおいて「新しい候補を広げる(Wider)」か「有望な経路を深掘りする(Deeper)」かをリアルタイムで判断する適応型アルゴリズムです。

6

マルチモデル連携による最適化

Gemini 2.5 Pro、o4-mini、DeepSeek-R1 といった複数の AI モデルを組み合わせながら、スコアに基づいて最適な探索パスを動的に選定・実行します。

7

深さ重視の設計とトレードオフ

Marlin は数分での回答を目指す他社ツールに対し、出力品質向上のために最大約8時間を費やす設計であり、その代償として待機時間と実行ごとの課金が発生します。

影響分析・編集コメントを表示

影響分析

このニュースは、生成 AI の応用領域が「対話型チャット」から「自律的な複雑タスク実行」へと転換する重要な転換点を示しています。特に AB-MCTS という推論アルゴリズムの商用化により、LLM の計算リソースを最適に配分して高品質な戦略レポートを生成できることは、経営層や研究機関における意思決定プロセスに革命的な変化をもたらす可能性があります。

編集コメント

「Wider or Deeper?」という研究論文の知見が、わずか数年で具体的な B2B プロダクトとして実装された事例は非常に注目すべきものです。LLM の推論コストを最適化する技術が、実際のビジネス価値(戦略レポート生成)に直結する形での成功例と言えます。

東京を拠点とする Sakana AI は今週、初の商用製品「Sakana Marlin」をリリースしました。Sakana チームはこれをバーチャル CSO(最高戦略責任者)として位置付けています。これは企業向けに構築された B2B 自律型研究エージェントです。

Marlin はチャットボットのように数秒で回答するものではありません。ユーザーが一つの研究トピックを指定すると、最大約 8 時間にわたり自律的に実行されます。各実行では、長文のレポートとプレゼンテーションのスライドデッキが返されます。Sakana によると、1 セッションあたり数百から数千回の LLM(大規模言語モデル)クエリが発行されるとのことです。

Sakana Marlin とは何か

Marlin はチャットアシスタントではなく、企業向け研究エージェントです。ユーザーは一つのトピックまたは質問を指定します。すると、自ら仮説を立て、ソースを検索し、発見された事実を検証します。数週間にわたる戦略策定作業を数時間に圧縮するものです。

納品物は意思決定者向けに構造化されています。日本語の発表では数十ページのレポートが紹介されていますが、英語の発表では最大約 100 ページのレポートが引用されています。プレス向けのハンズオンイベントでは、レポートは 60〜100 ページに及び、60〜80 のソースを引用していました。各レポートには本文、参考文献、付録が含まれます。プレゼンテーションスライドは画像生成 AI を用いて生成されます。

Sakana チームは 2026 年 4 月にクローズドベータを通じて Marlin を改良しました。そのベータ期間中、約 300 人の専門家が実際のタスクでこれをテストしました。対象となったタスクには、戦略策定、市場調査、リスク分析、競合分析が含まれます。Sakana はまた MUFG と提携し、シチズグループから戦略的投資を受けています。

AB-MCTS の内部:広さか深さか

Marlin の中核を成すのは、AB-MCTS(適応的分岐モンテカルロ木探索)です。これは Sakana による過去の研究論文「Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search」から派生したものです。

AB-MCTS は推論を木探索問題として扱います。各ステップにおいて、アルゴリズムは一つの決定を行います。新しい候補回答を生成することで幅を広げることもできれば、有望な既存の回答を洗練させることで深掘りすることもできます。標準的な反復サンプリングでは並列に幅を広げるのみで、その結果の一つが正解であることを期待するだけです。

マルチ LLM 版では第二の選択肢が追加されます。これはステップを全く異なるモデルへルーティングできる機能です。Sakana が報告した ARC-AGI-2 の実験において、この協働が効果を発揮しました。o4-mini、Gemini 2.5 Pro、DeepSeek-R1 を組み合わせることで約 27.5% のタスクを解決できました。一方、o4-mini モデル単独では約 23% の解決にとどまりました。Marlin はこの適応的探索手法を、長期にわたる研究活動にも適用しています。

Marlin のもう一つの重要な構成要素は、Sakana の AI Scientist プロジェクトから得られたワークフロー自動化技術です。同プロジェクトは自律的な科学発見を実証し、Nature 誌に掲載されました。

インタラクティブなデモ:埋め込み可能なウィジェット(marlin-abmcts-demo.html)では、「幅を広げるか深掘りするか」という決定をリアルタイムで確認できます。「Run」ボタンを押すと、木構造が成長する様子を見ることができます。より緑色のノードは高いスコアを示し、最良のパスがハイライトされます。「Multi-LLM」を切り替えると、ステップが異なるモデル間でルーティングされる様子を確認できます。

#mtp-abmcts-demo *{box-sizing:border-box!important;margin:0;padding:0}

#mtp-abmcts-demo{

background:#111!important;color:#e8e8e8!important;border:1px solid #2a2a2a!important;

border-radius:14px!important;max-width:880px;margin:24px auto;padding:20px 20px 14px;

font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,Helvetica,Arial,sans-serif;

line-height:1.5;overflow:hidden

}

#mtp-abmcts-demo h3{color:#fff!important;font-size:19px;font-weight:700;margin:0 0 4px}

#mtp-abmcts-demo .mtp-sub{color:#9aa0a6!important;font-size:13px;margin-bottom:14px}

#mtp-abmcts-demo .mtp-controls{display:flex;flex-wrap:wrap;gap:8px;align-items:center;margin-bottom:12px}

#mtp-abmcts-demo button{

background:#76B900!important;color:#0a0a0a!important;border:0!important;border-radius:8px!important;

font-weight:700;font-size:13px;padding:9px 14px;cursor:pointer;transition:filter .15s

}

#mtp-abmcts-demo button:hover{filter:brightness(1.1)}

#mtp-abmcts-demo button.mtp-ghost{background:#1c1c1c!important;color:#76B900!important;border:1px solid #2f3b1a!important}

#mtp-abmcts-demo button:disabled{opacity:.4;cursor:not-allowed}

#mtp-abmcts-demo .mtp-slider{display:flex;align-items:center;gap:8px;font-size:12px;color:#bdbdbd!important;margin-left:auto}

#mtp-abmcts-demo input[type=range]{accent-color:#76B900;width:120px}

#mtp-abmcts-demo .mtp-toggle{display:flex;align-items:center;gap:6px;font-size:12px;color:#bdbdbd!important;cursor:pointer;user-select:none}

#mtp-abmcts-demo .mtp-stage{

background:#0b0b0b!important;border:1px solid #232323!important;border-radius:10px!important;

position:relative;overflow:hidden;min-height:260px

}

#mtp-abmcts-demo svg{display:block;width:100%;height:auto}

#mtp-abmcts-demo .mtp-edge{stroke:#3a3a3a;stroke-width:1.5;fill:none}

#mtp-abmcts-demo .mtp-edge.best{stroke:#76B900;stroke-width:2.6}

#mtp-abmcts-demo text{font-family:inherit}

#mtp-abmcts-demo .mtp-grid{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-top:12px}

#mtp-abmcts-demo .mtp-panel{background:#0b0b0b!important;border:1px solid #232323!important;border-radius:10px!important;padding:12px}

#mtp-abmcts-demo .mtp-panel h4{color:#76B900!important;font-size:12px;letter-spacing:.05em;text-transform:uppercase;margin-bottom:8px}

#mtp-abmcts-demo .mtp-stat{display:flex;justify-content:space-between;font-size:13px;padding:3px 0;border-bottom:1px solid #1a1a1a}

#mtp-abmcts-demo .mtp-stat b{color:#fff!important}

#mtp-abmcts-demo .mtp-log{font-size:12.5px;max-height:132px;overflow-y:auto}

#mtp-abmcts-demo .mtp-log div{padding:3px 0;border-bottom:1px solid #1a1a1a;color:#cfcfcf!important}

#mtp-abmcts-demo .mtp-log .w{color:#7fb3ff!important}

#mtp-abmcts-demo .mtp-log .d{color:#76B900!important}

#mtp-abmcts-demo .mtp-legend{display:flex;flex-wrap:wrap;gap:14px;font-size:11.5px;color:#9aa0a6!important;margin-top:10px;align-items:center}

#mtp-abmcts-demo .mtp-chip{display:inline-flex;align-items:center;gap:5px}

#mtp-abmcts-demo .mtp-dot{width:10px;height:10px;border-radius:50%;display:inline-block}

#mtp-abmcts-demo .mtp-foot{text-align:center;color:#76B900!important;font-size:12px;font-weight:600;margin-top:14px;padding-top:10px;border-top:1px solid #232323}

#mtp-abmcts-demo hr,#mtp-abmcts-demo p:empty,#mtp-abmcts-demo del,#mtp-abmcts-demo s{display:none!important}

@media (max-width:640px){

#mtp-abmcts-demo{padding:14px}

#mtp-abmcts-demo .mtp-grid{grid-template-columns:1fr}

#mtp-abmcts-demo .mtp-slider{margin-left:0;width:100%}

#mtp-abmcts-demo input[type=range]{flex:1}

}

AB-MCTS:「幅を広げるか、深めるか?」— インタラクティブ検索

Sakana AI の適応的分岐モンテカルロ木探索(Adaptive Branching Monte Carlo Tree Search)の簡略化された視覚表現。各ステップでポリシーは、候補を追加して幅を広げるか、有望な経路を洗練させて深めるかの選択を行います。

► 実行

ステップ

リセット

マルチ LLM(大規模言語モデル)

深く

広く

検索状態

使用済み予算0 / 24

ノード(候補)1

最高スコア0.00

幅広化/深層化0 / 0

意思決定ログ

低スコア

高スコア

最良パス

Gemini 2.5 Pro

o4-mini

DeepSeek-R1

© Marktechpost · AB-MCTS の模式的モデル(TreeQuest、Apache 2.0 ライセンス)

(function(){

var SVGNS="http://www.w3.org/2000/svg";

var BUDGET=24, MODELS=[{n:"Gemini 2.5 Pro",c:"#7fb3ff"},{n:"o4-mini",c:"#ffb454"},{n:"DeepSeek-R1",c:"#ff7a90"}];

var nodes, idc, used, widers, deepers, timer=null;

var svg=document.getElementById("mtp-svg");

var $=function(id){return document.getElementById(id);};

function reset(){

if(timer){clearInterval(timer);timer=null;$("mtp-run").textContent="► 実行";}

idc=0; used=0; widers=0; deepers=0;

nodes=[{id:idc++,parent:null,depth:0,score:0,model:0,children:[]}];

$("mtp-log").innerHTML="";

log('ルートに探索木を初期化しました。','');

render();

}

function chooseModel(){return Math.floor(Math.random()*MODELS.length);}

必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:

{"translation": "翻訳全文"}

// AB-MCTS の 1 ステップ:ルートから降下し、各ノードで「ここで広げる」か「さらに深く進む」かを決定する。

function step(){

if(used>=BUDGET) return false;

var bias=(+$("mtp-bias").value)/100; // 1 = 常に広く、0 = 常に深く

var cur=nodes[0];

// 現在のノードで分岐(広げる)と判断するまで降下する。

while(true){

var kids=cur.children.map(function(i){return nodes[i];});

// ここで分岐(広く進む)する確率は、バイアスと子ノードの少なさによって上昇する。

var pWiden = bias*0.6 + 0.4/(kids.length+1);

if(kids.length===0 || Math.random()<pWiden){

// 分岐:新しい子ノードを作成

var newId=nodes.length;

nodes.push({id:newId,parent:cur.id,children:[],score:-Infinity});

cur.children.push(newId);

return true;

}

// 深く進む:ランダムに子ノードを選択

var nextIdx=Math.floor(Math.random()*kids.length);

cur=nodes[kids[nextIdx]];

}

}

// Tidy-tree レイアウト:葉ノードには連続した x 座標を、親ノードは子ノードの中央に配置する。

function layout(){

var leafX=0, pos={};

(function walk(n){

if(n.children.length===0){ pos[n.id]={x:leafX++,y:n.depth}; return; }

var xs=[];

n.children.forEach(function(i){ walk(nodes[i]); xs.push(pos[nodes[i].id].x); });

pos[n.id]={x:(Math.min.apply(null,xs)+Math.max.apply(null,xs))/2,y:n.depth};

})(nodes[0]);

return pos;

}

function bestPath(){

var best=nodes[0];

nodes.forEach(function(n){ if(n.score>best.score) best=n; });

var set={}, cur=best;

while(cur){ set[cur.id]=true; cur = cur.parent===null?null:nodes.find(function(x){return x.id===cur.parent;}); }

return set;

}

function render(){

var pos=layout();

var maxX=0,maxY=0;

for(var k in pos){ if(pos[k].x>maxX)maxX=pos[k].x; if(pos[k].y>maxY)maxY=pos[k].y; }

var padX=40, padY=34, gapX=Math.max(54, 520/(maxX+1)), gapY=64;

var W=padX*2 + maxX*gapX, H=padY*2 + maxY*gapY;

W=Math.max(W,560); H=Math.max(H,240);

svg.setAttribute("viewBox","0 0 "+W+" "+H);

while(svg.firstChild) svg.removeChild(svg.firstChild);

var best=bestPath();

var XY=function(id){return {x:padX+pos[id].x*gapX, y:padY+pos[id].y*gapY};};

// エッジ

nodes.forEach(function(n){

if(n.parent===null) return;

var a=XY(n.parent), b=XY(n.id);

var e=document.createElementNS(SVGNS,"path");

e.setAttribute("d","M"+a.x+","+a.y+" C"+a.x+","+(a.y+gapY/2)+" "+b.x+","+(b.y-gapY/2)+" "+b.x+","+b.y);

e.setAttribute("class","mtp-edge"+(best[n.id]&&best[n.parent]?" best":""));

svg.appendChild(e);

});

// ノード

nodes.forEach(function(n){

var p=XY(n.id);

var g=document.createElementNS(SVGNS,"circle");

g.setAttribute("cx",p.x); g.setAttribute("cy",p.y); g.setAttribute("r",n.id===0?13:11);

// 塗りつぶし = スコアに応じた NVIDIA グリーンへのグラデーション

var t=n.score; var r=Math.round(42+(118-42)*t), gg=Math.round(42+(185-42)*t), bb=Math.round(42+(0-42)*t);

g.setAttribute("fill","rgb("+r+","+gg+","+bb+")");

var stroke = $("mtp-multi").checked ? MODELS[n.model].c : (best[n.id]?"#76B900":"#555");

g.setAttribute("stroke", best[n.id]?"#76B900":stroke);

g.setAttribute("stroke-width", best[n.id]?3:1.5);

svg.appendChild(g);

var tx=document.createElementNS(SVGNS,"text");

tx.setAttribute("x",p.x); tx.setAttribute("y",p.y+3.5); tx.setAttribute("text-anchor","middle");

tx.setAttribute("font-size","9"); tx.setAttribute("fill", t>0.55?"#0a0a0a":"#e8e8e8");

tx.textContent = n.id===0?"root":n.score.toFixed(2);

svg.appendChild(tx);

});

// stats

var bestScore=0; nodes.forEach(function(n){if(n.score>bestScore)bestScore=n.score;});

$("mtp-budget").textContent=used+" / "+BUDGET;

$("mtp-nodes").textContent=nodes.length;

$("mtp-best").textContent=bestScore.toFixed(2);

$("mtp-wd").textContent=widers+" / "+deepers;

$("mtp-step").disabled = used>=BUDGET;

if(used>=BUDGET && timer){clearInterval(timer);timer=null;$("mtp-run").textContent="✓ Done";}

}

$("mtp-run").onclick=function(){

if(used>=BUDGET) reset();

if(timer){clearInterval(timer);timer=null;this.textContent="► Run";return;}

this.textContent="⏸ Pause";

var self=this;

timer=setInterval(function(){ if(!step()){clearInterval(timer);timer=null;self.textContent="✓ Done";} },520);

};

$("mtp-step").onclick=function(){ if(used

Marlin の比較

Marlin は速度ではなく深さで競合します。従来の深層調査ツールは数分から数十分で回答しますが、Marlin はあえて数時間を費やして出力の質を向上させます。以下の競合ツールの実行時間は概算値であり、公式の数値ではありません。

ツール 典型的な実行時間 出力内容 主要ユーザー

Sakana Marlin 最大約 8 時間 レポート(数十ページ〜約 100 ページ)+ スライド 企業戦略チーム

OpenAI Deep Research 数分から数十分 引用付きテキストレポート 一般およびプロフェッショナルユーザー

Perplexity Deep Research 数分程度 引用付きテキスト回答 一般ユーザー

Google Gemini Deep Research 数分 引用付きテキストレポート 一般およびワークスペースユーザー

トレードオフは明確です。より長い時間を待ち、実行ごとに課金されます。その代わり、より深い仮説検証と完成した成果物を得ることができます。いつでも実行をキャンセルできますが、クレジットは消費されたままになります。

価格設定

Sakana は従量課金に加え、Pro、Team、Enterprise の各プランを提供しています。従量課金は 1 回あたり 100 クレジットからで、1 クレジットあたり 98 円です。Pro プランは月額 150,000 円で 2,000 クレジットが含まれます。Team プランは月額 400,000 円で 6,000 クレジットが含まれます。Enterprise プランの価格はカスタムで、専用サポートが付いています。

ユースケースと具体例

Marlin は、リサーチがボトルネックとなる高リスクな質問に適しています。以下に、そのターゲットタスクから得た具体的な例を示します。

市場参入:「規制変更後の日本のステーブルコインおよびトークン化された決済市場を評価する」。Marlin はドライバー、リスク、構造化された選択肢をマッピングし、レポートとして出力します。

リスク分析:「ホルムズ海峡封鎖のシナリオに対するモデル解像度を予測する」。結論を導き出す前に、単なる要約ではなく仮説同士を比較検討します。

競合分析:3 つの競合他社のプロファイルを作成し、自社のポジショニングにおけるギャップをランク付けします。戦略レビューにそのまま使用可能なスライドを返却します。

各例は 1 つのプロンプトと 1 つの無人実行で完結します。ただし、いかなる意思決定を行う前にも、人間が引用された出力を確認する必要があります。

エンジンを実際に試す:TreeQuest

Marlin をセルフホストすることはできません。しかし、その中核アルゴリズムを今日から実行することは可能です。Sakana は AB-MCTS(Adversarial Bandit Monte Carlo Tree Search)を Apache 2.0 ライセンスの下で TreeQuest としてオープンソース化しました。インストールし、生成関数を定義した上で、固定された検索予算を実行してください。

コードをコピーコピー済み別のブラウザを使用

import random

import treequest as tq

Each node holds a user-defined state; score must be normalized to [0, 1].

def generate(parent_state):

if parent_state is None: # None means expand from the root

new_state = "Initial draft"

else:

new_state = f"Refined: {parent_state}"

score = random.random() # swap this for an LLM-based score

return new_state, score

algo = tq.ABMCTSA() # Adaptive Branching MCTS (variant A)

search_tree = algo.init_tree()

for _ in range(10): # generation budget of 10

search_tree = algo.step(search_tree, {"generate": generate})

best_state, best_score = tq.top_k(search_tree, algo, k=1)[0]

print("BEST:", best_state, round(best_score, 3))

Swap the random score for an LLM judge to reproduce the real pattern. TreeQuest also ships multi-LLM search and checkpointing for long runs. Checkpointing matters because long sessions can hit API errors midway.

Strengths and Weaknesses

Strengths

Peer-reviewed foundations: AB-MCTS at NeurIPS and AI Scientist in Nature.

Finished deliverables, including references, appendices, and slides.

Adaptive compute spends effort on the most promising branches.

The open-source core (TreeQuest) lets AI researchers study the method.

Weaknesses

Long runtimes make iteration slow versus minute-scale research tools.

Automated reports can contain hard-to-spot errors that need human review.

価格設定と設計は、個人開発者ではなく企業を対象としています。

Marlin 自体はクローズドソースですが、基盤となるアルゴリズムのみがオープンソースです。

主要なポイント

Sakana Marlin は、1 タスクあたり最大約 8 時間にわたって自律的な研究を実行します。

1 回の実行で、数十ページのレポートとスライドを生成します。

これは、NeurIPS 2025 Spotlight で発表された AB-MCTS(AB-MCTS)および Nature に掲載された AI Scientist のワークフローに基づいています。

エントリー価格は従量課金制で、1 回の実行あたり 100 クレジット、1 クレジットあたり 98 円です。

対象分野は、金融、企業戦略、コンサルティング、シンクタンクチームです。

出典

Sakana AI — Sakana Marlin リリース: https://sakana.ai/marlin-release/

Sakana AI — Sakana Marlin プロダクトページ: https://sakana.ai/marlin/

Sakana AI — AB-MCTS 研究および TreeQuest: https://sakana.ai/ab-mcts/

The post Sakana AI Commercializes AB-MCTS in Sakana Marlin, an Enterprise Agent Generating Up to 100-Page Research Reports With Slides appeared first on MarkTechPost.

原文を表示

Tokyo-based Sakana AI shipped its first commercial product ‘Sakana Marlin’ this week. Sakana team positions it as a Virtual CSO (Chief Strategy Officer). It is a B2B autonomous research agent built for enterprises.

Marlin does not answer in seconds like a chatbot. You give it one research topic. It then runs autonomously for up to about eight hours. Each run returns a long report plus a presentation slide deck. Sakana says a single session issues hundreds to thousands of LLM queries.

What is Sakana Marlin

Marlin is an enterprise research agent, not a chat assistant. You give it one topic or question. It then plans hypotheses, browses sources, and verifies findings on its own. It compresses weeks of strategy work into hours.

The deliverable is structured for decision-makers. The Japanese announcement describes reports of dozens of pages. The English announcement cites reports of up to roughly 100 pages. At a press hands-on, reports ran 60–100 pages and cited 60–80 sources. Each report includes a main body, references, and appendices. Presentation slides are generated using image-generation AI.

Sakana team refined Marlin through a closed beta in April 2026. Around 300 professionals tested it on real tasks during that beta. Those tasks spanned strategy formulation, market research, risk analysis, and competitive analysis. Sakana has also partnered with MUFG and taken strategic investment from Citigroup.

Inside AB-MCTS: Wider or Deeper

The backbone of Marlin is AB-MCTS, or Adaptive Branching Monte Carlo Tree Search. It comes from the Sakana’s past research “Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search.”

AB-MCTS treats reasoning as a tree-search problem. At each step the algorithm makes one decision. It can go wider by generating a new candidate answer. Or it can go deeper by refining a promising existing answer. Standard repeated sampling only goes wider in parallel, then hopes one answer is right.

A multi-LLM variant adds a second choice. It can route a step to a different model entirely. In Sakana’s reported ARC-AGI-2 experiments, this collaboration helped. Combining o4-mini, Gemini 2.5 Pro, and DeepSeek-R1 solved about 27.5% of tasks. The o4-mini model alone solved about 23%. Marlin applies the same adaptive search to long-horizon research.

The second key component for Marlin is workflow automation from Sakana’s AI Scientist project. That project demonstrated autonomous scientific discovery and was published in Nature.

Interactive demo: The embeddable widget (marlin-abmcts-demo.html) shows the “wider or deeper” decision live. Press Run and watch the tree grow. Greener nodes carry higher scores, and the best path is highlighted. Toggle “Multi-LLM” to see steps routed across different models.

#mtp-abmcts-demo *{box-sizing:border-box!important;margin:0;padding:0}

#mtp-abmcts-demo{

background:#111!important;color:#e8e8e8!important;border:1px solid #2a2a2a!important;

border-radius:14px!important;max-width:880px;margin:24px auto;padding:20px 20px 14px;

font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,Helvetica,Arial,sans-serif;

line-height:1.5;overflow:hidden

}

#mtp-abmcts-demo h3{color:#fff!important;font-size:19px;font-weight:700;margin:0 0 4px}

#mtp-abmcts-demo .mtp-sub{color:#9aa0a6!important;font-size:13px;margin-bottom:14px}

#mtp-abmcts-demo .mtp-controls{display:flex;flex-wrap:wrap;gap:8px;align-items:center;margin-bottom:12px}

#mtp-abmcts-demo button{

background:#76B900!important;color:#0a0a0a!important;border:0!important;border-radius:8px!important;

font-weight:700;font-size:13px;padding:9px 14px;cursor:pointer;transition:filter .15s

}

#mtp-abmcts-demo button:hover{filter:brightness(1.1)}

#mtp-abmcts-demo button.mtp-ghost{background:#1c1c1c!important;color:#76B900!important;border:1px solid #2f3b1a!important}

#mtp-abmcts-demo button:disabled{opacity:.4;cursor:not-allowed}

#mtp-abmcts-demo .mtp-slider{display:flex;align-items:center;gap:8px;font-size:12px;color:#bdbdbd!important;margin-left:auto}

#mtp-abmcts-demo input[type=range]{accent-color:#76B900;width:120px}

#mtp-abmcts-demo .mtp-toggle{display:flex;align-items:center;gap:6px;font-size:12px;color:#bdbdbd!important;cursor:pointer;user-select:none}

#mtp-abmcts-demo .mtp-stage{

background:#0b0b0b!important;border:1px solid #232323!important;border-radius:10px!important;

position:relative;overflow:hidden;min-height:260px

}

#mtp-abmcts-demo svg{display:block;width:100%;height:auto}

#mtp-abmcts-demo .mtp-edge{stroke:#3a3a3a;stroke-width:1.5;fill:none}

#mtp-abmcts-demo .mtp-edge.best{stroke:#76B900;stroke-width:2.6}

#mtp-abmcts-demo text{font-family:inherit}

#mtp-abmcts-demo .mtp-grid{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-top:12px}

#mtp-abmcts-demo .mtp-panel{background:#0b0b0b!important;border:1px solid #232323!important;border-radius:10px!important;padding:12px}

#mtp-abmcts-demo .mtp-panel h4{color:#76B900!important;font-size:12px;letter-spacing:.05em;text-transform:uppercase;margin-bottom:8px}

#mtp-abmcts-demo .mtp-stat{display:flex;justify-content:space-between;font-size:13px;padding:3px 0;border-bottom:1px solid #1a1a1a}

#mtp-abmcts-demo .mtp-stat b{color:#fff!important}

#mtp-abmcts-demo .mtp-log{font-size:12.5px;max-height:132px;overflow-y:auto}

#mtp-abmcts-demo .mtp-log div{padding:3px 0;border-bottom:1px solid #1a1a1a;color:#cfcfcf!important}

#mtp-abmcts-demo .mtp-log .w{color:#7fb3ff!important}

#mtp-abmcts-demo .mtp-log .d{color:#76B900!important}

#mtp-abmcts-demo .mtp-legend{display:flex;flex-wrap:wrap;gap:14px;font-size:11.5px;color:#9aa0a6!important;margin-top:10px;align-items:center}

#mtp-abmcts-demo .mtp-chip{display:inline-flex;align-items:center;gap:5px}

#mtp-abmcts-demo .mtp-dot{width:10px;height:10px;border-radius:50%;display:inline-block}

#mtp-abmcts-demo .mtp-foot{text-align:center;color:#76B900!important;font-size:12px;font-weight:600;margin-top:14px;padding-top:10px;border-top:1px solid #232323}

#mtp-abmcts-demo hr,#mtp-abmcts-demo p:empty,#mtp-abmcts-demo del,#mtp-abmcts-demo s{display:none!important}

@media (max-width:640px){

#mtp-abmcts-demo{padding:14px}

#mtp-abmcts-demo .mtp-grid{grid-template-columns:1fr}

#mtp-abmcts-demo .mtp-slider{margin-left:0;width:100%}

#mtp-abmcts-demo input[type=range]{flex:1}

}

AB-MCTS: “Wider or Deeper?” — interactive search

A simplified visual of Sakana AI’s Adaptive Branching Monte Carlo Tree Search. Each step the policy chooses to widen (new candidate) or deepen (refine a promising line).

► Run

Step

Reset

Multi-LLM

DeeperWider

Search state

Budget used0 / 24

Nodes (candidates)1

Best score0.00

Wider / Deeper0 / 0

Decision log

low score

high score

best path

Gemini 2.5 Pro

o4-mini

DeepSeek-R1

© Marktechpost · Illustrative model of AB-MCTS (TreeQuest, Apache 2.0)

(function(){

var SVGNS="http://www.w3.org/2000/svg";

var BUDGET=24, MODELS=[{n:"Gemini 2.5 Pro",c:"#7fb3ff"},{n:"o4-mini",c:"#ffb454"},{n:"DeepSeek-R1",c:"#ff7a90"}];

var nodes, idc, used, widers, deepers, timer=null;

var svg=document.getElementById("mtp-svg");

var $=function(id){return document.getElementById(id);};

function reset(){

if(timer){clearInterval(timer);timer=null;$("mtp-run").textContent="► Run";}

idc=0; used=0; widers=0; deepers=0;

nodes=[{id:idc++,parent:null,depth:0,score:0,model:0,children:[]}];

$("mtp-log").innerHTML="";

log('Initialized search tree at the root.','');

render();

}

function chooseModel(){return Math.floor(Math.random()*MODELS.length);}

// One AB-MCTS step: descend from root, at each node decide widen-here vs go-deeper.

function step(){

if(used>=BUDGET) return false;

var bias=(+$("mtp-bias").value)/100; // 1 = always wider, 0 = always deeper

var cur=nodes[0];

// Descend until we decide to branch (widen) at the current node.

while(true){

var kids=cur.children.map(function(i){return nodes[i];});

// Probability of branching here (going wider) rises with the bias and with few kids.

var pWiden = bias*0.6 + 0.4/(kids.length+1);

if(kids.length===0 || Math.random()40) box.removeChild(box.lastChild);

}

// Tidy-tree layout: leaves get sequential x, parents centered over children.

function layout(){

var leafX=0, pos={};

(function walk(n){

if(n.children.length===0){ pos[n.id]={x:leafX++,y:n.depth}; return; }

var xs=[];

n.children.forEach(function(i){ walk(nodes[i]); xs.push(pos[nodes[i].id].x); });

pos[n.id]={x:(Math.min.apply(null,xs)+Math.max.apply(null,xs))/2,y:n.depth};

})(nodes[0]);

return pos;

}

function bestPath(){

var best=nodes[0];

nodes.forEach(function(n){ if(n.score>best.score) best=n; });

var set={}, cur=best;

while(cur){ set[cur.id]=true; cur = cur.parent===null?null:nodes.find(function(x){return x.id===cur.parent;}); }

return set;

}

function render(){

var pos=layout();

var maxX=0,maxY=0;

for(var k in pos){ if(pos[k].x>maxX)maxX=pos[k].x; if(pos[k].y>maxY)maxY=pos[k].y; }

var padX=40, padY=34, gapX=Math.max(54, 520/(maxX+1)), gapY=64;

var W=padX*2 + maxX*gapX, H=padY*2 + maxY*gapY;

W=Math.max(W,560); H=Math.max(H,240);

svg.setAttribute("viewBox","0 0 "+W+" "+H);

while(svg.firstChild) svg.removeChild(svg.firstChild);

var best=bestPath();

var XY=function(id){return {x:padX+pos[id].x*gapX, y:padY+pos[id].y*gapY};};

// edges

nodes.forEach(function(n){

if(n.parent===null) return;

var a=XY(n.parent), b=XY(n.id);

var e=document.createElementNS(SVGNS,"path");

e.setAttribute("d","M"+a.x+","+a.y+" C"+a.x+","+(a.y+gapY/2)+" "+b.x+","+(b.y-gapY/2)+" "+b.x+","+b.y);

e.setAttribute("class","mtp-edge"+((best[n.id]&&best[n.parent])?" best":""));

svg.appendChild(e);

});

// nodes

nodes.forEach(function(n){

var p=XY(n.id);

var g=document.createElementNS(SVGNS,"circle");

g.setAttribute("cx",p.x); g.setAttribute("cy",p.y); g.setAttribute("r",n.id===0?13:11);

// fill = score ramp toward NVIDIA green

var t=n.score; var r=Math.round(42+(118-42)*t), gg=Math.round(42+(185-42)*t), bb=Math.round(42+(0-42)*t);

g.setAttribute("fill","rgb("+r+","+gg+","+bb+")");

var stroke = $("mtp-multi").checked ? MODELS[n.model].c : (best[n.id]?"#76B900":"#555");

g.setAttribute("stroke", best[n.id]?"#76B900":stroke);

g.setAttribute("stroke-width", best[n.id]?3:1.5);

svg.appendChild(g);

var tx=document.createElementNS(SVGNS,"text");

tx.setAttribute("x",p.x); tx.setAttribute("y",p.y+3.5); tx.setAttribute("text-anchor","middle");

tx.setAttribute("font-size","9"); tx.setAttribute("fill", t>0.55?"#0a0a0a":"#e8e8e8");

tx.textContent = n.id===0?"root":n.score.toFixed(2);

svg.appendChild(tx);

});

// stats

var bestScore=0; nodes.forEach(function(n){if(n.score>bestScore)bestScore=n.score;});

$("mtp-budget").textContent=used+" / "+BUDGET;

$("mtp-nodes").textContent=nodes.length;

$("mtp-best").textContent=bestScore.toFixed(2);

$("mtp-wd").textContent=widers+" / "+deepers;

$("mtp-step").disabled = used>=BUDGET;

if(used>=BUDGET && timer){clearInterval(timer);timer=null;$("mtp-run").textContent="✓ Done";}

}

$("mtp-run").onclick=function(){

if(used>=BUDGET) reset();

if(timer){clearInterval(timer);timer=null;this.textContent="► Run";return;}

this.textContent="⏸ Pause";

var self=this;

timer=setInterval(function(){ if(!step()){clearInterval(timer);timer=null;self.textContent="✓ Done";} },520);

};

$("mtp-step").onclick=function(){ if(used

How Marlin Compares

Marlin competes on depth, not speed. Conventional deep-research tools answer in minutes to tens of minutes. Marlin deliberately spends hours to raise output quality. The competitor run times below are approximate and reported, not official figures.

ToolTypical run timeOutputPrimary user

Sakana MarlinUp to ~8 hoursReport (dozens to ~100 pages) + slidesEnterprise strategy teams

OpenAI Deep Research~Minutes to tens of minutesCited text reportGeneral and pro users

Perplexity Deep Research~A few minutesCited text answerGeneral users

Google Gemini Deep Research~MinutesCited text reportGeneral and workspace users

The trade-off is explicit. You wait longer and pay per run. In return you get deeper hypothesis testing and a finished deliverable. You can cancel a run anytime, but credits are still consumed.

Pricing

Sakana offers pay-as-you-go along with Pro, Team, and Enterprise tiers. Pay-as-you-go starts at 100 credits per run, at ¥98 per credit. Pro is ¥150,000 per month and includes 2,000 credits. Team is ¥400,000 per month and includes 6,000 credits. Enterprise pricing is custom, with dedicated support.

Use Cases, With Examples

Marlin suits high-stakes questions where research is the bottleneck. Here are concrete examples drawn from its target tasks.

Market entry: 'Assess Japan's stablecoin and tokenized-payments market after regulatory change.' Marlin maps drivers, risks, and structured options into a report.

Risk analysis: 'Model resolution scenarios for a Strait of Hormuz blockade.' It compares hypotheses, not just summaries, before drawing conclusions.

Competitive analysis: Profile three rivals and rank our positioning gaps. It returns slides ready for a strategy review.

Each example fits one prompt and one unattended run. A human still reviews the cited output before any decision.

Try the Engine Yourself: TreeQuest

You cannot self-host Marlin. But you can run its core algorithm today. Sakana open-sourced AB-MCTS as TreeQuest under the Apache 2.0 license. Install it, define a generate function, then run a fixed search budget.

Copy CodeCopiedUse a different Browser

import random

import treequest as tq

Each node holds a user-defined state; score must be normalized to [0, 1].

def generate(parent_state):

if parent_state is None: # None means expand from the root

new_state = "Initial draft"

else:

new_state = f"Refined: {parent_state}"

score = random.random() # swap this for an LLM-based score

return new_state, score

algo = tq.ABMCTSA() # Adaptive Branching MCTS (variant A)

search_tree = algo.init_tree()

for _ in range(10): # generation budget of 10

search_tree = algo.step(search_tree, {"generate": generate})

best_state, best_score = tq.top_k(search_tree, algo, k=1)[0]

print("BEST:", best_state, round(best_score, 3))

Swap the random score for an LLM judge to reproduce the real pattern. TreeQuest also ships multi-LLM search and checkpointing for long runs. Checkpointing matters because long sessions can hit API errors midway.

Strengths and Weaknesses

Strengths

Peer-reviewed foundations: AB-MCTS at NeurIPS and AI Scientist in Nature.

Finished deliverables, including references, appendices, and slides.

Adaptive compute spends effort on the most promising branches.

The open-source core (TreeQuest) lets AI researchers study the method.

Weaknesses

Long runtimes make iteration slow versus minute-scale research tools.

Automated reports can contain hard-to-spot errors that need human review.

Pricing and design target enterprises, not individual developers.

Marlin itself is closed; only the underlying algorithm is open.

Key Takeaways

Sakana Marlin runs autonomous research for up to about eight hours per task.

One run produces a report of dozens of pages, plus slides.

It builds on AB-MCTS (NeurIPS 2025 Spotlight) and AI Scientist workflows (Nature).

Entry pricing is pay-as-you-go: 100 credits per run at ¥98 per credit.

It targets finance, corporate strategy, consulting, and think-tank teams.

Sources

Sakana AI — Sakana Marlin release: https://sakana.ai/marlin-release/

Sakana AI — Sakana Marlin product page: https://sakana.ai/marlin/

Sakana AI — AB-MCTS research and TreeQuest: https://sakana.ai/ab-mcts/

SakanaAI/treequest (GitHub, Apache 2.0): https://github.com/SakanaAI/treequest

The post Sakana AI Commercializes AB-MCTS in Sakana Marlin, an Enterprise Agent Generating Up to 100-Page Research Reports With Slides appeared first on MarkTechPost.

この記事をシェア

関連記事

MarkTechPost★42026年6月18日 11:28

OpenAI、専門家が作成した評価基準を用いた750タスクのライフサイエンス研究ベンチマーク「LifeSciBench」を公開

OpenAIは、生物学者が不確実な証拠に基づいて判断する現実の研究プロセスを模擬するため、専門家による評価基準付きで750件のタスクを含む新ベンチマーク「LifeSciBench」を発表した。

TLDR AI★42026年6月18日 09:00

惑星サイズの脳:LLM は考えすぎなのか?(30 分読了)

TLDR AI が実施した研究では、Claude や GPT の最新モデルを多数組み合わせ、セキュリティ脆弱性の特定実験を行いました。その結果、推論努力を増やしたり新モデルを使ったりしても、必ずしもセキュリティ結果の選別が向上するわけではないことが示されました。

Interconnects★42026年6月16日 22:29

Frontier のポストトレーニングレシピを Finbarr Timbers とレビュー

著者が RLHF やポストトレーニングの基礎をまとめるため、Finbarr Timbers をポッドキャストに招き、Olmo 型レシピを最先端レベルへ引き上げるための現状と必要な手順について議論した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む