メタの「Watermelon」が GPT-5.5 ベンチマークに匹敵
メタの最高責任者アレクサンドル・ワン氏が、訓練中の次期モデル「Watermelon」がベンチマークでOpenAIの「GPT-5.5」に追いついたと発言したが、これは未確認の情報であり、計算資源の増大という実態的なシグナルの方が重要である。
キーポイント
Watermelon と GPT-5.5 のベンチマーク比較
メタの AI 責任者アレクサンドル・ワン氏が、訓練中の次期モデル「Watermelon」が主要な AI ベンチマークで OpenAI の「GPT-5.5」に匹敵する性能を示したと発言した。
計算資源の劇的増大
ワン氏は Watermelon が、直前のモデル(Avocado/Muse Spark)と比較して「桁違いに多い」計算資源を使用していると明言し、これが性能向上の要因であることを示唆した。
情報の未確認性と限界
この主張は内部関係者への取材に基づくものであり、メタも OpenAI も公式に認めておらず、具体的なベンチマーク名や再現性のあるデータは現時点で公開されていない。
影響分析・編集コメントを表示
影響分析
このニュースは、メタが OpenAI の最新モデルに対抗しうる強力な後継モデルを保有している可能性を示唆する重要なシグナルですが、公式データがないため即座に業界のバランスを変えるものではありません。しかし、「桁違いの計算資源」の使用表明は、大規模言語モデルの性能向上における計算リソースの重要性を再確認させるものであり、今後の AI 開発競争の方向性を示す指標となります。
編集コメント
内部発表による「追いついた」という表現は、公式な性能評価がまだ行われていない段階での楽観的な見解である可能性が高い。しかし、計算資源の投入量という具体的な数値的シグナルは、今後のモデル開発の方向性を示す重要な手がかりとなる。
モデル & 研究metaopenaiwatermelongpt 5.5
|2026年7月3日 | LDS チーム
6.2
関連性スコア
メタのスーパーインテリジェンス責任者であるアレクサンダー・ワン氏は、タウンホールで社内向けに、同社の次期モデル「Watermelon」が、注目を集めるAIベンチマークにおいてOpenAIのGPT-5.5と「追いついた」と語ったと、事情に詳しい2人の人物を引用したビジネスインサイダー紙が報じています。ワン氏はまた、Watermelonはまだ訓練中で、堅調なベンチマークスコアを示しながらも競合他社のモデルに劣っていたメタの4月モデル(社内コードネームはAvocado)である「Muse Spark」と比較して、「計算リソースを1桁多く使用している」と述べたと伝えられています。ビジネスインサイダー紙は、ワン氏が具体的にどのベンチマークを引用したのかは不明であり、メタ社もOpenAIもこの主張を確認していないと指摘しています。実務者にとって、内部の単一出所によるベンチマークの主張は、公開され再現可能な評価とは等価ではなく、メタがモデルを一般公開するまでは、検証された結果としてではなく、初期のシグナルとして扱うべきです。
Meta の AI リーダーシップからの未確認の内部ベンチマーク主張は、タウンホールでの発言が評価結果そのものではないという reminder である。Watermelon について再現可能な結果やモデルカードが Meta から公開されるまで、「GPT-5.5 に追いついた」という表現は単一の情報源に基づく主張に過ぎず、検証された同等性を示すものではない。フロンティアモデルの競争を追跡する実務家にとって、ここでより具体的なシグナルとなるのはベンチマーク主張そのものではなく、Wang が説明した計算資源(compute)の推移である。
What happened
Business Insider によると、Alexandr Wang は Meta の従業員向けタウンホールで、同社が間もなく公開するモデル「Watermelon」が、注目を集めている AI ベンチマークに基づき OpenAI の「GPT-5.5」と同等に達したと述べた。この発言は事情に通じた二人の情報源を引用したものだと Business Insider は報じている。Business Insider によると、Wang は Avocado(Meta が Muse Spark に付けた内部コードネーム)の後継である Watermelon が「現在トレーニング中」であり、「Avocado と比べて計算資源のオーダーが桁違いに多い」とも語ったという。OpenAI は Business Insider の報道によれば、GPT-5.5 を 4 月にリリースし、先月末には GPT-5.6 も導入したとされる。Meta はコメントを拒否し、OpenAI は取材依頼に対して回答しなかった。Business Insider の報道を再配布した Investing.com は、Wang が引用している具体的なベンチマークが直ちに明確ではないとも付け加えた。
⟦CODE_0⟧
Technical context
Meta は 2026 年 4 月に Muse Spark をリリースしました。これは Wang 氏を雇用してからの同社初の主要モデルであり、いくつかのベンチマークでは良好な結果を示しましたが、全体としては依然として主要な競合他社には及びませんでした。Wang 氏が Watermelon について「Muse Spark より計算リソースが桁違いに多い」と述べていることは、Meta の主要な戦略が引き続き積極的なスケーリング(拡大)であることを示唆しています。これは、Zuckerberg 氏の AI 開発に対する直接の監督下で同社が半導体やデータセンターに数十億ドル規模を投じているという報道とも整合性があります。
For practitioners
これは調達へのシグナルではなく、先行指標として捉えてください。公開された評価手法、評価用データセット、あるいは第三者による再現性が伴わない内部ベンチマークの主張には、楽観的な枠組みで語られるリスクが実際に存在します。Watermelon をモデル選定やキャパシティ計画に反映させる前に、公開されたモデルカード(技術仕様書)、公式のベンチマーク表、または独立した評価結果を待つ必要があります。
What to watch
Meta は Watermelon のリリース時期についてまだ発表していません。公的なローンチ発表、公開されたベンチマーク結果、そして GPT-5.5 や GPT-5.6 との差が内部引用ではなく独立して実行された評価において縮小されるかどうかに注目してください。
キーポイント
- メタの AI 責任者は、匿名情報源を引用した Business Insider の単一の報道によると、Watermelon が社内ベンチマークにおいて GPT-5.5 と同等の性能に達したと従業員に伝えた。
- Wang は Watermelon が 4 月の Muse Spark よりもはるかに多くのトレーニング計算リソース(compute)を使用していると説明し、メタの中核戦略として計算リソースのスケーリングを強調した。
- 実務者は、展開に関する判断を下す前に、公開されたベンチマークまたは独立した評価結果が出るまで待機すべきである。
スコアリングの根拠
メタと OpenAI の最前線モデル競争において、メタが抱える競争上の stakes(利害関係)を考慮すれば注目すべきシグナルではあるが、この主張は公開されたベンチマークデータを持たない匿名情報源に基づく Town Hall での発言に依存しており、両社とも具体的な内容を確認していないため、独立した検証が行われるまで暫定的な扱いとする。
出典
本レポートで使用された公的な参照情報。
2 件の情報源
原文を表示
Models & Researchmetaopenaiwatermelongpt 5.5
|July 3, 2026|By LDS Team
6.2
Relevance Score
Meta's superintelligence chief Alexandr Wang told employees in a town hall that the company's upcoming model, codenamed Watermelon, has "caught up" with OpenAI's GPT-5.5 on closely followed AI benchmarks, according to Business Insider, which cited two people familiar with the matter. Wang reportedly said Watermelon is still in training and uses "an order of magnitude more compute" than Muse Spark (Meta's April model, internally codenamed Avocado), which had trailed rival models despite solid benchmark scores. Business Insider notes it was not clear which benchmarks Wang cited, and neither Meta nor OpenAI has confirmed the claim. For practitioners, an internal, single-sourced benchmark claim is not equivalent to a published, reproducible evaluation and should be treated as an early signal, not a verified result, until Meta releases the model publicly.
An unconfirmed internal benchmark claim from Meta's AI leadership is a reminder that town-hall statements are not evaluation artifacts: until Meta publishes reproducible results or a model card for Watermelon, "caught up with GPT-5.5" is a single-sourced assertion, not verified parity. For practitioners tracking the frontier-model race, the more concrete signal here is the compute trajectory Wang described, not the benchmark claim itself.
What happened
According to Business Insider, Alexandr Wang told Meta employees in a town hall that the company's upcoming model, codenamed Watermelon, "has caught up" with OpenAI's GPT-5.5 based on closely followed AI benchmarks, citing two people familiar with the matter. Business Insider reports Wang said Watermelon, the successor to Avocado (Meta's internal codename for Muse Spark), is "currently in training" and "uses an order of magnitude more compute than Avocado." OpenAI released GPT-5.5 in April and introduced GPT-5.6 late last month, per Business Insider. Meta declined to comment and OpenAI did not respond to a request for comment. Investing.com, redistributing the Business Insider report, added that it was not immediately clear which benchmarks Wang was citing.
Technical context
Meta released Muse Spark in April 2026, its first major model since hiring Wang, and it performed well on some benchmarks while still falling short of leading rivals overall. Wang's description of Watermelon using "an order of magnitude more compute" than Muse Spark points to continued aggressive scaling as Meta's primary lever, consistent with the company's reported multibillion-dollar spending on chips and data centers under Zuckerberg's direct oversight of AI development.
For practitioners
Treat this as a leading indicator, not a procurement signal. Internal benchmark claims announced without published methodology, evaluation datasets, or third-party replication carry a real risk of optimistic framing. Wait for a public model card, an official benchmark table, or independent evaluations before factoring Watermelon into model-selection or capacity-planning decisions.
What to watch
Meta has not given a release timeline for Watermelon. Watch for a public launch announcement, published benchmark results, and whether the model narrows the gap with GPT-5.5 and GPT-5.6 on independently run evaluations rather than internally cited ones.
Key Points
- 1Meta's AI chief told staff Watermelon has matched GPT-5.5 on internal benchmarks, per a single Business Insider report citing anonymous sources.
- 2Wang described Watermelon as using far more training compute than April's Muse Spark, underscoring compute scaling as Meta's core strategy.
- 3Practitioners should wait for published benchmarks or independent evaluations before treating the parity claim as verified for deployment decisions.
Scoring Rationale
Notable signal in the Meta-OpenAI frontier-model race given Meta's competitive stakes, but the claim rests on a single anonymous-sourced town-hall statement with no published benchmark data, and neither company confirmed specifics, so it stays provisional pending independent verification.
Sources
Public references used for this report.
2 sources
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み