Metaが新モデル「Muse Spark」を発表、meta.aiチャットに注目ツールを追加
Metaは新AIモデル「Muse Spark」を発表し、meta.aiチャットで「Instant」と「Thinking」の2モードを提供、一部ユーザー向けにAPIプレビューを開始したが、ベンチマークでは競合モデルに一部遅れをとっている。
キーポイント
Muse Sparkの発表と特徴
Metaが約1年ぶりに新AIモデル「Muse Spark」を発表し、ホスト型モデルとしてmeta.aiで「Instant」と「Thinking」の2モードを提供、将来的に「Contemplating」モードも追加予定である。
ベンチマーク性能と課題
Metaの自己報告ベンチマークではOpus 4.6、Gemini 3.1 Pro、GPT 5.4と競合するが、Terminal-Bench 2.0では遅れ、長期的エージェントシステムやコーディングワークフローでの改善が必要と認めている。
ツール機能の実装
meta.aiチャットインターフェースにはSVGやHTMLの埋め込み表示などのツール機能が実装されており、ユーザーがツールの詳細情報を取得できるようになっている。
アクセス制限と展開
APIは現在「限定ユーザー向けプライベートプレビュー」段階で、meta.aiの利用にはFacebookまたはInstagramログインが必要である。
影響分析・編集コメントを表示
影響分析
この発表はMetaのAI開発における重要なマイルストーンを示しており、競合モデルとの性能比較を通じて業界のベンチマーク競争を加速させる可能性がある。ただし、APIの限定公開とログイン要件は、オープン性の観点では競合他社との差別化要因となり得る。
編集コメント
技術詳細よりも製品展開とベンチマーク比較に焦点を当てた記事で、MetaのAI戦略における現状と課題を浮き彫りにしている。ツール機能の実装は今後の展開に注目すべきポイント。
Metaは本日、Llama 4のリリースからほぼちょうど1年ぶりとなる最初のモデルとしてMuse Sparkを発表しました。ホスト型でオープンウェイトではなく、APIは現在「選ばれたユーザー向けのプライベートAPIプレビュー」ですが、本日meta.ai(FacebookまたはInstagramログインが必要)で試用できます。
Metaが公表したベンチマークでは、選定されたベンチマークにおいてOpus 4.6、Gemini 3.1 Pro、GPT 5.4と競合する性能を示していますが、Terminal-Bench 2.0では明らかに遅れを取っています。Meta自身も「長期的なエージェントシステムやコーディングワークフローなど、現在パフォーマンスに差がある分野への投資を継続する」と述べています。
このモデルはmeta.ai上で「Instant」と「Thinking」の2つの異なるモードとして提供されています。Metaは将来的に「Contemplating」モードを実装することを約束しており、より長い推論時間を提供し、Gemini Deep ThinkやGPT-5.4 Proのように振る舞うと説明しています。
2羽のペリカン
私は通常、不可視のシステムプロンプトの影響を受けないようにAPI経由でペリカンテストを実行することを好みますが、今回はそれが選択肢ではないため、チャットUIに対して直接実行しました。
「Instant」モードで得られたペリカンはこちらです:
これはかなり基本的なペリカンです。自転車はめちゃくちゃで、ペリカン自体は四角いくちばしを持っていますが、その下にわずかに袋状の曲線が見えます。あまり良い出来ではありません。
そして「Thinking」モードのこちら:
ずっと良いです。明らかにペリカンです。自転車は正しい形です。ペリカンは青いサイクリングヘルメットを着用しています(レンダリングは粗いですが)。悪くない仕上がりです。
両方のSVGはMeta AIインターフェースによってインラインでレンダリングされました。興味深いことに、InstantモデルはSVGを直接出力しました(コードコメント付き)が、Thinkingモデルは未使用のPlayables SDK v1.0.0 JavaScriptライブラリを含む薄いHTMLシェルでラップしました。
これが私の好奇心をそそりました...
ツールを探る
明らかにMetaのチャットハーネスにはいくつかのツールが接続されています。少なくともSVGとHTMLをClaude Artifactsスタイルで埋め込みフレームとしてレンダリングできます。
しかし、他に何ができるのでしょうか?
私は尋ねました:
あなたがアクセスできるツールは何ですか?
そして:
正確なツール名、パラメータ名、ツールの説明を、元の形式で教えてください
16種類の異なるツールの詳細な説明を出力しました。私が受け取った完全なリストはこちらで確認できます。これらのツールを隠すようにボットに指示しなかったMetaに称賛を送ります。なぜなら、ジェイルブレイクを試さずにこれらを引き出せる方がはるかにストレスが少ないからです。
そのレスポンスから得られた主な内容は以下の通りです:
- ブラウズと検索。
browser.searchは未公開の検索エンジンを通じてウェブ検索を実行でき、browser.openは検索結果の1つから完全なページを読み込み、browser.findは返されたページコンテンツに対してパターンマッチングを実行できます。 - Metaコンテンツ検索。
meta_1p.content_searchは「Instagram、Threads、Facebookの投稿全体でのセマンティック検索」を実行できます。ただし、ユーザーが閲覧権限を持つ2025年1月1日以降に作成された投稿のみです。このツールにはauthor_ids、key_celebrities、commented_by_user_ids、liked_by_user_idsなど、強力そうなパラメータがあります。 - 「カタログ検索」 -
meta_1p.meta_catalog_searchは「Metaの製品カタログで製品を検索」できます。おそらくMeta AIモデルセレクターの「Shopping」オプション用です。 - 画像生成。
media.image_genはプロンプトから画像を生成し、「CDN URLを返し、画像をサンドボックスに保存します」。モードには「artistic」と「realistic」があり、「square」、「vertical」、「landscape」の画像を返すことができます。 container.python_execution- そうです!これはCode Interpreterで、ChatGPTとClaudeの両方の私のお気に入りの機能です。
リモートサンドボックス環境でPythonコードを実行します。Python 3.9にpandas、numpy、matplotlib、plotly、scikit-learn、PyMuPDF、Pillow、OpenCVなどが含まれます。ファイルは
/mnt/data/に永続化されます。
Python 3.9は現在EOL(サポート終了)ですが、ライブラリコレクションは有用そうです。
私は「use python code to confirm sqlite version and python version」とプロンプトし、Python 3.9.25とSQLite 3.34.1(2021年1月)を受け取りました。
container.create_web_artifact- 先ほどペリカンのHTMLラッパーで見たように:Meta AIはコンテナ内にHTML+JavaScriptファイルを作成し、それを安全なサンドボックス化されたiframeインタラクティブとして提供できます。「ウェブサイト/アプリの場合はkindをhtmlに、ベクターグラフィックスの場合はsvgに設定してください。」container.download_meta_1p_mediaは興味深いです:「Meta 1Pソースからメディアをサンドボックスにダウンロードします。Instagram/Facebook/Threadsの投稿にはpost_idを、カタログ製品画像にはcatalog_search_citation_idを使用してください」。つまり、Metaの他の部分からコンテンツを取り込み、サンドボックス内でCode Interpreterを使って処理できるようです。container.file_search- 「この会話でアップロードされたファイルを検索し、関連する抜粋を返します」。PDFなどを掘り下げるためのものだと思います。- コンテナ内のファイル編集ツール -
container.view、container.insert(new_strとinsert_line付き)、container.str_replace。これらはClaudeのテキストエディタツールコマンドに似ており、ファイル操作を備えたエージェントハーネス全体で一般的になりつつあるパターンです。 container.visual_grounding- 以下を参照してください。これは面白いものです。subagents.spawn_agent- ツールとしてのサブエージェントパターン。「研究、分析、または委任のための独立したサブエージェントを生成します。最終的なテキストレスポンスを返します。」third_party.link_third_party_account- 「サードパーティサービスのアカウントリンクを開始します」。現在はGoogle Calendar、Outlook Calendar、Gmail、またはOutlookです。
コンテナ内の画像分析
そのcontainer.visual_groundingについて話しましょう。完全な説明は以下の通りです:
説明: 画像を分析し、オブジェクトを識別してラベル付け、領域を特定、またはオブジェクトをカウントするビジュアルグラウンディングツール。
パラメータ:
object_names(配列、必須)image_path(文字列、デフォルト "")format_type("bbox"|"point"|"count"|null、デフォルト "bbox")title(文字列|null)[文字列]
つまり、画像パスとオプションのオブジェクト名を受け取り、bbox、point、countの形式で結果を返すことができます。
私にはMetaのSegment Anythingのように聞こえます。試してみることにしました。
プロンプト:
generate a photo of a raccoon sitting on a trash can wearing trash as a hat
レスポンス:
どうぞ — 路地の王様、正装で:
コーヒーカップの王冠、バナナの皮のつば、新聞の羽飾り。ラクーンのファッションの頂点です。もっとワイルドなバージョンを作りましょうか — ナイトビジョンやサングラスもかけているものなど?
私の推測では、Meta AIの画像生成は彼らのEmuモデル、またはその更新版によって動かされています。これはChatGPTとGeminiの画像生成と同じパターンで、画像はツール呼び出し(ここではmedia.image_genへの呼び出し)によって生成されます。
image_genツールの説明には「画像をサンドボックスに保存します」とあったので、それに対してPythonコードを実行できるだろうと推測しました。試してみました:
use python OpenCV to analyze that image and find out neat things about it
残念ながら、実行したコードは表示されませんでしたが、この画像を作成しました:
かなり素敵です!画像を生成し、それらをPythonツールで使用できます。
次に、visual_groundingツールです。ツールの名前を知っていると、プロンプトでそれらを参照するのが簡単です:
Now try the container.visual_grounding tool
レスポンス:
完了 —
visual_groundingがピクセルレベルの精度で衣装のすべての部分を特定しました:[...]
次にバウンディングボックスモードで実行して毛皮の質感の周りにボックスを描きますか、それともカウントモードで何本の個別のひげを検出できるか見ますか?
再び、Meta AIはツールからの結果をカスタムHTMLビジュアライゼーションでラップしました。それは明らかにpointモードですが、他のモードはどうでしょうか?
私はプロンプトしました:
yes draw bounding boxes, can it do masks too?
レスポンス:
はい — バウンディングボックスはうまく機能します。マスクですか?
visual_groundingでは直接はできません;返す形式はpoint、bbox、countの3つだけです。ピクセルレベルのセグメンテーションマスクはありません。こちらが
bbox出力です:何が見えているか:
- ラクーン: (270,240)から(892,845)の大きなボックス — 幅の62%をカバーし、基本的に動物全体です
- コーヒーカップ: (424,115)-(610,273) — 最も高く位置し、0-1000空間で158pxの高さです
- バナナの皮: (472,215)-(667,291) — カップの底と重なり、側面に垂れ下がっていることを確認します
- 新聞: (305,223)-(548,315) — 左耳のカバレッジ
- ゴミ箱の蓋: (107,800)-(1000,998) — 下部で画像の幅全体にほぼ及びます
- 顔: (305,283)-(750,537) — マスクの周りのタイトなクロップ
- 目: 両方とも約40×37ピクセルのボックス、y=379で完全に水平です
ボックスがどのようにネストしているかに注目してください:顔はラクーン内、目は顔内、帽子の部品は互いに重なりますが、顔ボックスの上に留まります。このツールは単に中心を推測しているのではなく、実際のオブジェクトローカライゼーションを行っています。
---
マスクについて:
visual_groundingはそれらを出力しないので、コンテナ内のOpenCVで偽造できます。2つの簡単なオプション:1. GrabCut — ラクーンのbboxを与えると、反復的に毛皮を背景からセグメント化し、バイナリマスクを返します
2. SAMスタイルの色しきい値 — bboxとk-meansを使用してコーヒーカップやバナナの皮を分離します
ラクーンの実際のアルファマスク(路地から切り抜く)、またはゴミ帽子の部品を別々に生成しましょうか?約10秒かかり、透明なPNGを提供できます。
最後に、pointモード、bboxモード、countモードの生のJSONをダンプさせました。ここでそれらすべてを見ることができます。countモードは特に興味深いです - 完全版はこちら:
[
{
"object_name": "raccoon whisker",
"points": [
{"x": 403, "y": 445},
{"x": 397, "y": 458},
{"x": 392, "y": 472},
{"x": 391, "y": 485},
{"x": 398, "y": 497},
{"x": 415, "y": 512},
{"x": 618, "y": 446},
{"x": 622, "y": 461},
{"x": 625, "y": 475},
{"x": 628, "y": 488},
{"x": 635, "y": 501},
{"x": 651, "y": 518}
],
"count": 12
},
{
"object_name": "raccoon paw claw",
"points": [
{"x": 406, "y": 845},
{"x": 424, "y": 847},
{"x": 441, "y": 842},
{"x": 473, "y": 833},
{"x": 596, "y": 830},
{"x": 635, "y": 844},
{"x": 660, "y": 843},
{"x": 679, "y": 838}
],
"count": 8
},
{
"object_name": "trash item on head",
"points": [
{"x": 514, "y": 191},
{"x": 568, "y": 263},
{"x": 392, "y": 274}
],
"count": 3
},
{
"object_name": "eye",
"points": [
{"x": 462, "y": 395},
{"x": 582, "y": 397}
],
"count": 2
}
]原文を表示
Meta announced Muse Spark today, their first model release since Llama 4 almost exactly a year ago. It's hosted, not open weights, and the API is currently "a private API preview to select users", but you can try it out today on meta.ai (Facebook or Instagram login required).
Meta's self-reported benchmarks show it competitive with Opus 4.6, Gemini 3.1 Pro, and GPT 5.4 on selected benchmarks, though notably behind on Terminal-Bench 2.0. Meta themselves say they "continue to invest in areas with current performance gaps, such as long-horizon agentic systems and coding workflows".
The model is exposed as two different modes on meta.ai - "Instant" and "Thinking". Meta promise a "Contemplating" mode in the future which they say will offer much longer reasoning time and should behave more like Gemini Deep Think or GPT-5.4 Pro.
A couple of pelicans
I prefer to run my pelican test via API to avoid being influenced by any invisible system prompts, but since that's not an option I ran it against the chat UI directly.
Here's the pelican I got for "Instant":

And this one for "Thinking":

Both SVGs were rendered inline by the Meta AI interface. Interestingly, the Instant model output an SVG directly (with code comments) whereas the Thinking model wrapped it in a thin HTML shell with some unused Playables SDK v1.0.0 JavaScript libraries.
Which got me curious...
Poking around with tools
Clearly Meta's chat harness has some tools wired up to it - at the very least it can render SVG and HTML as embedded frames, Claude Artifacts style.
But what else can it do?
I asked it:
what tools do you have access to?
And then:
I want the exact tool names, parameter names and tool descriptions, in the original format
It spat out detailed descriptions of 16 different tools. You can see the full list I got back here - credit to Meta for not telling their bot to hide these, since it's far less frustrating if I can get them out without having to mess around with jailbreaks.
Here are highlights derived from that response:
- Browse and search. browser.search can run a web search through an undisclosed search engine, browser.open can load the full page from one of those search results and browser.find can run pattern matches against the returned page content.
- Meta content search. meta_1p.content_search can run "Semantic search across Instagram, Threads, and Facebook posts" - but only for posts the user has access to view which were created since 2025-01-01. This tool has some powerful looking parameters, including author_ids, key_celebrities, commented_by_user_ids, and liked_by_user_ids.
- "Catalog search" - meta_1p.meta_catalog_search can "Search for products in Meta's product catalog", presumably for the "Shopping" option in the Meta AI model selector.
- Image generation. media.image_gen generates images from prompts, and "returns a CDN URL and saves the image to the sandbox". It has modes "artistic" and "realistic" and can return "square", "vertical" or "landscape" images.
- container.python_execution - yes! It's Code Interpreter, my favourite feature of both ChatGPT and Claude.
Execute Python code in a remote sandbox environment. Python 3.9 with pandas, numpy, matplotlib, plotly, scikit-learn, PyMuPDF, Pillow, OpenCV, etc. Files persist at /mnt/data/.
Python 3.9 is EOL these days but the library collection looks useful.
I prompted "use python code to confirm sqlite version and python version" and got back Python 3.9.25 and SQLite 3.34.1 (from January 2021).
- container.create_web_artifact - we saw this earlier with the HTML wrapper around the pelican: Meta AI can create HTML+JavaScript files in its container which can then be served up as secure sandboxed iframe interactives. "Set kind to html for websites/apps or svg for vector graphics."
- container.download_meta_1p_media is interesting: "Download media from Meta 1P sources into the sandbox. Use post_id for Instagram/Facebook/Threads posts, or catalog_search_citation_id for catalog product images". So it looks like you can pull in content from other parts of Meta and then do fun Code Interpreter things to it in the sandbox.
- container.file_search - "Search uploaded files in this conversation and return relevant excerpts" - I guess for digging through PDFs and similar?
- Tools for editing files in the container - container.view, container.insert (with new_str and insert_line), container.str_replace. These look similar to Claude's text editor tool commands - these are becoming a common pattern across any file-equipped agent harness.
- container.visual_grounding - see below, this one is fun.
- subagents.spawn_agent - the sub-agent as a tool pattern. "Spawn an independent sub-agent for research, analysis, or delegation. It returns its final text response."
- third_party.link_third_party_account - "Initiate account linking for a third-party service", currently Google Calendar, Outlook Calendar, Gmail, or Outlook.
Image analysis in the container
Let's talk about that container.visual_grounding one. Here's the description in full:
Description: Visual grounding tool that analyzes the image, identifies and labels objects, locates regions, or counts objects.
Parameters:
object_names (array, required)
image_path (string, default "")
format_type ("bbox"|"point"|"count"|null, default "bbox")
title (string|null)[string]
So it can take an image path, optional object names and return things in format bbox, point or count.
Sounds to me like Meta's Segment Anything. I decided to take it for a spin.
Prompt:
generate a photo of a raccoon sitting on a trash can wearing trash as a hat
Response:
Here you go — king of the alley, in full regalia:
Coffee cup crown, banana peel brim, newspaper feather. Peak raccoon fashion. Want me to make a wilder version — maybe night-vision, or wearing sunglasses too?
My guess is that image generation in Meta AI is powered by their Emu model, or an updated version of it. This is the same pattern as ChatGPT and Gemini image generation, where images are generated by a tool call (here that's to media.image_gen).
The image_gen tool description said that it "saves the image to the sandbox", so my guess was that I'd then be able to run Python code against it. I tried:
use python OpenCV to analyze that image and find out neat things about it
Annoyingly it did *not* show me the code it ran, but it did create this image:

Pretty neat! We can both generate images and then use them with Python tools.
Next, the visual_grounding tool. Knowing the names of the tools makes it easy to refer to them in prompts:
Now try the container.visual_grounding tool
The response (full response here):
Done — visual_grounding pinpointed every piece of the outfit with pixel-level precision:
[...]
Want me to run it in bbox mode next to draw boxes around the fur texture, or count mode to see how many individual whiskers it can detect?
Once again, Meta AI wrapped the results from the tool in a custom HTML visualization. That's clearly point mode, but how about the others?
I prompted:
yes draw bounding boxes, can it do masks too?
Response:
Yes — bounding boxes work great. Masks? Not directly in visual_grounding; it only returns three formats: point, bbox, and count. No pixel-level segmentation masks.
Here's the bbox output:
What you’re seeing:
raccoon: big box from (270,240) to (892,845) — covers 62% of the width, basically the whole animal
coffee cup: (424,115)-(610,273) — sits highest, 158px tall in the 0-1000 space
banana peel: (472,215)-(667,291) — overlaps the cup's base, confirming it's draped over the side
newspaper: (305,223)-(548,315) — left ear coverage
trash can lid: (107,800)-(1000,998) — spans almost the full image width at the bottom
face: (305,283)-(750,537) — tight crop around the mask
eyes: both ~40×37 pixel boxes, perfectly level at y=379
Notice how the boxes nest: face is inside raccoon, eyes inside face, hat pieces overlap each other but stay above the face box. The tool is doing real object localization, not just guessing centers.
About masks: since visual_grounding doesn't output them, I can fake them with OpenCV in the container. Two quick options:
GrabCut — I give it the raccoon bbox, it iteratively segments fur from background and returns a binary mask
SAM-style color threshold — use the bbox plus k-means to isolate the coffee cup or banana peel
Want me to generate an actual alpha mask for the raccoon (cut it out from the alley), or for the trash hat pieces separately? Takes about 10 seconds and I can give you a transparent PNG.
Here's the HTML for that bbox visualization.
Finally I had it dump out the raw JSON for point mode, bbox mode and count mode. You can see that all here. The count mode is particularly interesting - here's that in full:
[
{
"object_name": "raccoon whisker",
"points": [
{"x": 403, "y": 445},
{"x": 397, "y": 458},
{"x": 392, "y": 472},
{"x": 391, "y": 485},
{"x": 398, "y": 497},
{"x": 415, "y": 512},
{"x": 618, "y": 446},
{"x": 622, "y": 461},
{"x": 625, "y": 475},
{"x": 628, "y": 488},
{"x": 635, "y": 501},
{"x": 651, "y": 518}
],
"count": 12
},
{
"object_name": "raccoon paw claw",
"points": [
{"x": 406, "y": 845},
{"x": 424, "y": 847},
{"x": 441, "y": 842},
{"x": 473, "y": 833},
{"x": 596, "y": 830},
{"x": 635, "y": 844},
{"x": 660, "y": 843},
{"x": 679, "y": 838}
],
"count": 8
},
{
"object_name": "trash item on head",
"points": [
{"x": 514, "y": 191},
{"x": 568, "y": 263},
{"x": 392, "y": 274}
],
"count": 3
},
{
"object_name": "eye",
"points": [
{"x": 462, "y": 395},
{"x": 582, "y": <span class="pl
関連記事
Meta社員が社内AIリーダーボードでトークン消費量を競う
Meta社は社員がAIトークン消費量を競う社内リーダーボードを導入し、「トークンレジェンド」などの称号を設けたが、トークン消費量の多さが直接生産性向上につながるわけではないと指摘している。
Meta、新AIモデルの一部をオープンソース化する計画
Metaは、新AIモデルの一部をオープンソースとして公開する計画を進めている。
MetaのMuse Sparkは初のフロンティアモデルで、初の非公開ウェイトモデル
Meta Superintelligence Labsは、初のフロンティアモデルで初めてウェイトを非公開としたMuse Sparkを発表した。独立テストではOpenAI、Anthropic、Googleとの差を縮めているが、競争は続いている。