Understanding AI·2026年4月20日 22:39·約6分

1年の沈黙を経て、MetaがLLM競争に再参入

#LLM #Meta #Post-training #Benchmarking #Anthropic

TL;DR

Metaが新モデル「Muse Spark」をリリースしたが、前作Llama 4の失敗やベンチマーク操作疑惑を受け、業界リーダーであるAnthropicやOpenAIとの格差は依然として大きく、特にポストトレーニング能力におけるMetaの課題が指摘されている。

AI深層分析2026年4月28日 00:16

重要/ 5段階

深度40%

キーポイント

Muse SparkのリリースとLlama 4の失敗

Metaは新モデル「Muse Spark」をリリースしたが、直前のLlama 4がベンチマークで期待外れの結果に終わり、MetaのAIコミュニティでの評判を損なっていた。

リソースと実効性のギャップ

Metaは豊富な資金、チップ、データを持つが、最高峰のモデルを生み出す「ポストトレーニング」技術においてAnthropicやOpenAIに遅れを取っていると分析されている。

Metaの企業文化と革新の限界

メトリクス重視の文化は追随者には有効だが、最先端でのさらなる革新やモデルの「人格」形成には不向きであり、Zuckerbergの巨額投資でもこの課題は解決しにくいと予測されている。

Llama 4の信頼性低下と沈黙

MetaはLlama 4ベンチマーク結果の改ざん疑惑により信頼を失い、その後1年間新しいLLMを発表しなかった。

組織再編と人材獲得

ZuckerbergはScale AIを買収してAlexandr WangをChief AI Officerに迎え、OpenAIから研究者を引き抜くなど大規模な人材投資を行った。

新モデルMuse Sparkのリリース

開発コード名「Avocado」だった新モデルは遅延を経て「Muse Spark」としてリリースされ、初期レビューはLlama 4より好意的だった。

影響分析・編集コメントを表示

影響分析

MetaはAI業界での地位回復を試みているが、単なるベンチマークスコアの高さではなく、モデルの有用性を決定する「ポストトレーニング」の質が競合他社との決定的な差であることを示唆している。この分析は、Metaが単なるハードウェア・データ投入だけでなく、高度なファインチューニングや安全対策の文化変革を迫られていることを示しており、業界全体のモデル開発戦略に重要な示唆を与える。

編集コメント

Metaの巨額投資にもかかわらず、AIモデルの「品質」を決定するのは計算資源ではなく、熟練したエンジニアリングとデータ処理にあるという指摘は鋭い。業界はベンチマークスコアだけでなく、実使用時の信頼性を重視する傾向が強まっている。

最新の AI サマー・ポッドキャストのエピソードで、ティムとカイはプリンストンのコンピュータサイエンティストであるサヤシュ・カプール氏と共に、Claude Mythos Preview について議論しました。

4 月 8 日に発表された Meta の新モデル「Muse Spark」のリリースは、前日の Claude Mythos Preview の発表に overshadowed（覆い隠されました）されました。しかし、Meta の新しいモデルファミリーと、先週同社が発表したそれに関する 158 ページにわたる安全性レポートは、同社の AI 業界における将来の役割について私たちに教えてくれる点において依然として重要です。

マーク・ザッカーバーグ氏は、Muse Spark を構築したチームを結成するために数十億ドルを費やしました。このモデルのリリースにより、Meta が AI ラボの最上位層に参入できるかどうかについての最初の兆候が得られました。

Meta は、豊富なリソースを持つテクノロジー企業としてのすべての利点を備えています：多くの AI チップ（AI chips）、独自データ、そして豪華な給与です。これらのリソースにより、Meta チームは高いベンチマークスコアを誇るモデルを生み出すことができました。しかし、私はこれらのスコアがモデルの実世界での有用性を過大評価している可能性があると推測しています。

今日、最良のモデルを生産する企業である Anthropic と OpenAI は、ポストトレーニング（post-training）という微妙な芸術において卓越しています。これは、モデルに「個性」を与えるステップであり、創造性、機転、倫理的基盤の組み合わせが、優れたモデルを素晴らしいものへと変えるプロセスです。

メタの新しい AI チームがすでに完成しているとは私は思いません。また、いくら数十億ドルを投じようとも、ザッカーバーグ氏がトップクラスのポストトレーニング能力を持つチームを構築できるかどうかは不明です。メタの指標偏重文化は、同社が Anthropic や OpenAI といったリーダー企業に追いつく手助けになるかもしれませんが、メタのモデルがフロンティアに近い段階になると、さらなるイノベーションのための指針としては機能しないだろうと私は予測します。

Llama 4 の失速

Muse Spark は長い間待たれていたものでしたが、メタの前回のモデルリリースである Llama 4（Llama 4）はそれより一年以上前に発表されていました。

2025 年 4 月 5 日、メタは Llama 4 モデルファミリーのリリースを「これまでで最も進化したモデルであり、マルチモーダル性において同クラスで最高のもの」として歓迎しました。メタは、シリーズの中規模モデルである Llama 4 Maverick が、広く受け入れられている多くのベンチマーク（benchmark）において、OpenAI の GPT-4o や Google の Gemini 2.0 Flash を上回ったと主張しました。

しかし、インターネットの反応は冷ややかでした。

「Llama-4 に対して非常に失望している」というタイトルの投稿に対し、ある Redditor は「本当にひどい出来に驚愕した」とコメントし、他のコメント投稿者もこれに同意しました。「地球上で最も豊かな企業のひとつからの惨憺たるリリースだ」とある人は書き込みました。

Reddit だけの話ではありませんでした。作家の Zvi Mowshowitz が指摘するように、Llama 4 はほぼすべての独立系ベンチマークにおいて「平均的」あるいは「平均以下」のパフォーマンスしか示しませんでした。

以前の Llama モデル、特に Llama 3 シリーズは依然として研究者の間で人気がありますが、Llama 4 は歴史の塵に埋もれる運命をたどりました。

Llama 4 の発表は、AI コミュニティにおける Meta の評判を傷つけた。Llama 4 モデルがベンチマークで好成績を収めていたのは — Meta の当時の首席 AI 科学者である Yann LeCun が後に Financial Times に語ったように — 「結果が少し改ざんされていたから」だった。Meta は特定のモデルを主要なベンチマークで高得点が出るよう微調整し、その結果を発表していた。その後、異なるモデルを一般公開したのだ。

「私は Meta を、モデルの能力に関する発表を信頼できない、業界規範に従うことが期待できない、明らかに最先端ではない AI ラボの一種に分類する」と Mowshowitz は当時記述した。

翌年、Meta は LLM（大規模言語モデル）を一つも公開しなかった。Llama 4 の発表で予告されていた「Llama 4 Behemoth」さえもだ。

しかし Mark Zuckerberg はあきらめなかった。昨年 6 月、彼は Meta の AI 取り組みの再編を開始した。Meta はデータラベリングスタートアップである Scale AI に 143 億ドルを投資し、当時 28 歳だった CEO Alexandr Wang を引き抜いた。このプロセスは「アクワイズハイト（acqhire）」と呼ばれる。Wang は Meta の首席 AI オフィサーに就任し、「Meta Superintelligence Labs (MSL)」と名付けられた組織内の新たな取り組みを率いることになった。

image

Meta 首席 AI オフィサー Alexandr Wang。（写真：Ludovic MARIN / AFP via Getty Images）

メタはワン氏だけでなく、他にも巨額の資金を投じた。7 月、ニューヨーク・タイムズ紙は、ある 24 歳の研究者に 100 百万ドル（初年度分）を含む合計 2.5 億ドルのオファーがなされたと報じた。同紙によると、メタはエンジニアに対して「数千万ドルの中位」の報酬パッケージを提供したという。メタはオープン AI から複数の研究者を引き抜き、これにより後者の研究責任者は内部メモで、「まるで誰かが私たちの家に侵入して何かを盗まれたかのようだ」と述べるに至った。

8 月までに、メタは 50 名以上の新規研究者を採用し、コードネーム「アボカド」の新しいモデルの開発を開始した。10 月には、古い AI ユニットから 600 名の研究者が解雇されたが、新チームは活動を継続した。12 月末までに、アボカドの事前学習プロセスは完了していた。

3 月中旬、ニューヨーク・タイムズ紙は、アボカドが Google、OpenAI、Anthropic の主要な AI モデルと比較して、「推論、コーディング、ライティングに関する内部テスト」で劣る結果を示したため、予定されていた 3 月のリリースが遅延していると報じた。

ついに 4 月 8 日、メタは新しい大規模言語モデル（LLM: Large Language Model）「Muse Spark」の公開を発表した。

初期の評価は概ね好意的だった——少なくとも、Llama 4 のレビューのように執拗に否定的なものではなかった。

原文を表示

In the latest episode of the AI Summer podcast, Tim and Kai discuss Claude Mythos Preview with Sayash Kapoor, a computer scientist at Princeton.

The April 8 release of Meta’s new model Muse Spark got overshadowed by Claude Mythos Preview, which was announced one day earlier. But Meta’s new model family — and the 158-page safety report Meta released about it last week — are still significant for what they tell us about the company’s future role in the AI industry.

Mark Zuckerberg spent billions of dollars to assemble the team that built Muse Spark. The model’s release gives us our first hints about whether Meta will be able to break into the top tier of AI labs.

Meta has all of the advantages of a well-resourced technology company: lots of AI chips, proprietary data, and lavish salaries. Those resources have enabled the Meta team to produce a model with strong benchmark scores. But I suspect that those scores still overstate the model’s real-world utility.

The companies that produce today’s best models — Anthropic and OpenAI — excel at the subtle art of post-training. This is the step that gives a model its “personality” — the combination of creativity, resourcefulness, and ethical grounding that turns a good model into a great one.

I don’t think Meta’s new AI team is there yet. And it’s not clear if Zuckerberg will be able to build a team with top-tier post-training capabilities, no matter how many billions of dollars he spends on the effort. Meta’s metrics-obsessed culture may help the company catch up to leaders like Anthropic and OpenAI, but I predict it will be a poor guide for further innovation once Meta’s models are closer to the frontier.

The Llama 4 stumble

Muse Spark was a long time coming; Meta’s previous model release — Llama 4 — was more than a year earlier.

On April 5, 2025, Meta heralded the release of the Llama 4 model family as “our most advanced models yet and the best in their class for multimodality.” Meta claimed that Llama 4 Maverick, the mid-sized model in the series, outperformed OpenAI’s GPT-4o and Google’s Gemini 2.0 Flash “across a broad range of widely accepted benchmarks.”

But the Internet wasn’t impressed.

“Genuinely astonished how bad it is,” one Redditor commented on a post titled “I’m incredibly disappointed with Llama-4.” Other commenters concurred. “Pathetic release from one of the richest corporations on the planet,” one wrote.

It wasn’t just Reddit: Llama 4 performed “mid” or “less than mid” on just about every independent benchmark, writer Zvi Mowshowitz observed.

While previous Llama models, especially the Llama 3 series, are still popular with researchers, Llama 4 has been relegated to the dustbin of history.

The release of Llama 4 hurt Meta’s reputation in the AI community. Llama 4 models had only done well on benchmarks because — as Meta’s then chief AI scientist Yann LeCun later told the Financial Times — the “results were fudged a little bit.” Meta had fine-tuned specific models to do well on prominent benchmarks and reported those results. Then it released different models to the public.

“I am placing Meta in that category of AI labs whose pronouncements about model capabilities are not to be trusted, that cannot be relied upon to follow industry norms, and which are clearly not on the frontier,” Mowshowitz wrote at the time.

For the next year, Meta did not release any LLMs — not even Llama 4 Behemoth, which it had previewed in the Llama 4 announcement.

But Mark Zuckerberg didn’t give up. Last June, he began restructuring Meta’s AI efforts. Meta invested $14.3 billion in the data labeling startup Scale AI to hire its then-28-year-old CEO Alexandr Wang, in a process called an acquihire. Wang became Meta’s chief AI officer and led a new effort within the organization called Meta Superintelligence Labs (MSL).

Meta Chief AI Officer Alexandr Wang. (Photo by Ludovic MARIN / AFP via Getty Images)

Meta splurged on more than Wang. In July, the New York Times reported that one 24-year-old researcher was offered $250 million, including $100 million in the first year. Meta offered engineers pay packages that “hovered in the mid-tens of millions of dollars,” according to the Times. Meta poached several researchers from OpenAI, which prompted the latter’s chief of research to write an internal memo saying it felt “as if someone has broken into our home and stolen something.”

By August, Meta had recruited more than 50 new researchers and started work on a new model, codenamed Avocado. Meta laid off 600 researchers from older AI units in October, but the new team kept working. By the end of December, it had completed the pre-training process for Avocado.

In mid-March, the New York Times reported that Avocado was being delayed from a planned March release because it performed worse than leading AI models from Google, OpenAI, and Anthropic “on internal tests for reasoning, coding, and writing.”

Finally, on April 8, Meta announced it was releasing a new LLM: Muse Spark.

Initial reviews were mostly positive — or at least not relentlessly negative like the reviews for Llama 4.

この記事をシェア

GitHub Blog重要度42026年6月26日 07:59

GitHub Copilot エージェント型ハッチのモデル・タスク間での性能と効率の評価

TLDR AI重要度42026年6月25日 09:00

ジェミニ研究者らがアンソロピックへ移籍（1 分読了）

KDnuggets重要度42026年6月27日 00:00

Apple Silicon で MLX を用いた言語モデルのファインチューニング

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

Understanding AI·2026年4月20日 22:39·約6分

1年の沈黙を経て、MetaがLLM競争に再参入

#LLM #Meta #Post-training #Benchmarking #Anthropic

TL;DR

AI深層分析2026年4月28日 00:16

重要/ 5段階

深度40%

キーポイント

Muse SparkのリリースとLlama 4の失敗

リソースと実効性のギャップ

Metaの企業文化と革新の限界

Llama 4の信頼性低下と沈黙

MetaはLlama 4ベンチマーク結果の改ざん疑惑により信頼を失い、その後1年間新しいLLMを発表しなかった。

組織再編と人材獲得

ZuckerbergはScale AIを買収してAlexandr WangをChief AI Officerに迎え、OpenAIから研究者を引き抜くなど大規模な人材投資を行った。

新モデルMuse Sparkのリリース

開発コード名「Avocado」だった新モデルは遅延を経て「Muse Spark」としてリリースされ、初期レビューはLlama 4より好意的だった。

影響分析・編集コメントを表示

影響分析

編集コメント

Llama 4 の失速

Muse Spark は長い間待たれていたものでしたが、メタの前回のモデルリリースである Llama 4（Llama 4）はそれより一年以上前に発表されていました。

しかし、インターネットの反応は冷ややかでした。

以前の Llama モデル、特に Llama 3 シリーズは依然として研究者の間で人気がありますが、Llama 4 は歴史の塵に埋もれる運命をたどりました。

翌年、Meta は LLM（大規模言語モデル）を一つも公開しなかった。Llama 4 の発表で予告されていた「Llama 4 Behemoth」さえもだ。

image

Meta 首席 AI オフィサー Alexandr Wang。（写真：Ludovic MARIN / AFP via Getty Images）

ついに 4 月 8 日、メタは新しい大規模言語モデル（LLM: Large Language Model）「Muse Spark」の公開を発表した。

初期の評価は概ね好意的だった——少なくとも、Llama 4 のレビューのように執拗に否定的なものではなかった。

原文を表示

In the latest episode of the AI Summer podcast, Tim and Kai discuss Claude Mythos Preview with Sayash Kapoor, a computer scientist at Princeton.

The Llama 4 stumble

Muse Spark was a long time coming; Meta’s previous model release — Llama 4 — was more than a year earlier.

But the Internet wasn’t impressed.

It wasn’t just Reddit: Llama 4 performed “mid” or “less than mid” on just about every independent benchmark, writer Zvi Mowshowitz observed.

While previous Llama models, especially the Llama 3 series, are still popular with researchers, Llama 4 has been relegated to the dustbin of history.

For the next year, Meta did not release any LLMs — not even Llama 4 Behemoth, which it had previewed in the Llama 4 announcement.

Meta Chief AI Officer Alexandr Wang. (Photo by Ludovic MARIN / AFP via Getty Images)

Finally, on April 8, Meta announced it was releasing a new LLM: Muse Spark.

Initial reviews were mostly positive — or at least not relentlessly negative like the reviews for Llama 4.

この記事をシェア

GitHub Blog重要度42026年6月26日 07:59

GitHub Copilot エージェント型ハッチのモデル・タスク間での性能と効率の評価

TLDR AI重要度42026年6月25日 09:00

ジェミニ研究者らがアンソロピックへ移籍（1 分読了）

KDnuggets重要度42026年6月27日 00:00

Apple Silicon で MLX を用いた言語モデルのファインチューニング

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

1年の沈黙を経て、MetaがLLM競争に再参入

キーポイント

影響分析

編集コメント

関連記事

1年の沈黙を経て、MetaがLLM競争に再参入

キーポイント

影響分析

編集コメント

関連記事