Inception、初の拡散ベース言語推論モデル「Mercury 2」を発表
Inception社が拡散モデル技術を言語推論に応用した初のAIモデル「Mercury 2」を発表。従来の生成AIとは異なるアプローチで言語理解を実現。
キーポイント
Inception LabsがTransformerアーキテクチャに代わる初の拡散ベース言語推論モデル「Mercury 2」を発表
従来モデルより5倍高速(1,009トークン/秒)で低価格(入力$0.25/M、出力$0.75/M)を実現
128Kコンテキスト、ツール使用、JSON出力対応で音声アシスタントやコーディングツール向けに展開
Microsoft・Nvidia・Snowflakeから5,000万ドル調達し、Googleも拡散ベース言語モデルを研究中
業界全体でTransformer後継アーキテクチャの模索が加速するトレンドを示す
影響分析・編集コメントを表示
影響分析
Transformerアーキテクチャの限界を超える拡散ベースアプローチの実用化は、AI業界の基盤技術転換の可能性を示唆する。高速・低コスト化が進めば、リアルタイム応用(音声アシスタント等)の普及を加速し、競争環境を激化させるだろう。
編集コメント
Transformer支配への初の本格的挑戦として、技術的ブレークスルーと市場価格破壊の両面で業界に衝撃を与える可能性大。
InceptionがMercury 2を発表、初の拡散ベースの言語推論モデル
AIスタートアップのInception Labsは、テキスト生成に標準的なトランスフォーマーアーキテクチャの代わりに拡散ベースのアプローチを採用した推論モデル「Mercury 2」を発表しました。
Mercury 2は、テキストをトークンごとに生成するのではなく、複数のテキストブロックを同時に洗練させます。これは、編集者が単語ごとに見るのではなく、草案全体を一度に手直しするのに似ています。
Nvidia Blackwell GPU上で動作するMercury 2は、Inception Labsによれば1秒あたり1,009トークンを達成し、従来のモデルよりも5倍以上高速です。
AIスタートアップのInception Labsが、初の拡散ベースの推論AIモデルをローンチしました。高速で安価です。
従来の言語モデルとは異なり、Mercury 2はテキストを単語ごとに処理するのではなく、複数のテキストブロックを同時に洗練させます。同社はこれを、個々の単語を見るのではなく、草案全体を一度に修正する編集者に例えています。
現時点で最も明らかな利点は、速度と価格です。Inceptionによると、Mercury 2はNvidia Blackwell GPU上で1秒あたり1,009トークンを達成し、エンドツーエンドのレイテンシはわずか1.7秒です。これは、推論機能を有効にしたGemini 3 Flashの14.4秒やClaude Haiku 4.5の23.4秒と比較して短くなっています。同社は、出力品質は主要な速度最適化モデルに匹敵すると主張しています。Ad
価格は入力100万トークンあたり0.25ドル、出力100万トークンあたり0.75ドルに設定されており、入力ではGemini 3 Flash(0.50ドル/3.00ドル)の半額、出力では4分の1の価格です。また、Claude Haiku 4.5(1.00ドル/5.00ドル)と比較すると、入力で約4倍、出力で2.5倍以上安価です。AdDEC_D_Incontent-1
E2Eレイテンシ(秒)
GPT-5 Nano(最小)
Claude 4.5 Haiku(非推論)
Gemini 2.5 Flash-Lite(推論)
Gemini 3 Flash(推論)
Gemini 2.5 Flash(推論)
GPT-5 Mini(中)
Claude 4.5 Haiku(推論)
このモデルは128Kのコンテキストウィンドウ、ツール使用、JSON出力をサポートしています。Inceptionは、音声アシスタント、コーディングツール、検索システムなど、レイテンシに敏感なアプリケーションを持つ企業をターゲットにしています。
Mercury 2は、OpenAI互換のAPIを通じて利用可能です。企業は早期アクセスに申請でき、モデルはチャットで直接テストすることもできます。Ad
AI業界はトランスフォーマーの次を探している
昨年11月、Inceptionはマイクロソフト、Nvidia、Snowflakeなどの投資家から5000万ドルを調達しました。同スタートアップは2025年初頭に最初のプロトタイプを公開しました。Mercury 2により、Inceptionは現在、推論機能を備えた製品版モデルの提供を開始しています。
Google Deepmindも拡散ベースの言語モデルに取り組んでいます。Gemini Diffusionは、当時の現行モデルであるGemini 2.0 Flash Liteとベンチマークで同等の性能を示しました。しかし、Googleはこの拡散実験について、2025年5月に初めて発表されて以来、何も語っていません。AdDEC_D_Incontent-2
より広く見ると、支配的なトランスフォーマーアーキテクチャに代わるものを模索するスタートアップが増えています。拡散ベースの言語モデルが長期的に通用するかどうかは、未解決の問題です。Ad
誇大広告なしのAIニュース – 人間によるキュレーション
THE DECODERの購読者になると、広告非表示での閲覧、週刊AIニュースレター、独占的な「AIレーダー」フロンティアレポート(年6回)、コメントへのアクセス、完全なアーカイブにアクセスできます。

原文を表示
Inception launches Mercury 2, the first diffusion-based language reasoning model
AI startup Inception Labs has introduced Mercury 2, a reasoning model that replaces the standard transformer architecture with a diffusion-based approach to generating text.
Instead of producing text token by token, Mercury 2 refines multiple text blocks at the same time, similar to an editor reworking an entire draft at once rather than focusing on one word at a time.
Running on Nvidia Blackwell GPUs, Mercury 2 reaches 1,009 tokens per second according to Inception Labs, making it more than five times faster than conventional models.
AI startup Inception Labs launches the first diffusion-based reasoning AI model. It's fast and cheap.
Unlike conventional language models, Mercury 2 refines multiple text blocks simultaneously instead of going through a text word for word. The startup compares this to an editor revising an entire draft at once rather than looking at individual words.
The most obvious benefit so far is speed and price. According to Inception, Mercury 2 hits 1,009 tokens per second on Nvidia Blackwell GPUs with an end-to-end latency of just 1.7 seconds, compared to 14.4 seconds for Gemini 3 Flash and 23.4 seconds for Claude Haiku 4.5 with reasoning enabled. Output quality is comparable to leading speed-optimized models, the company claims.Ad
Pricing sits at $0.25 per million input tokens and $0.75 per million output tokens, undercutting Gemini 3 Flash ($0.50/$3.00) by half on input and four times on output, and roughly four times cheaper than Claude Haiku 4.5 ($1.00/$5.00) on input and more than two and a half times on output.AdDEC_D_Incontent-1
E2E Latency (Seconds)
GPT-5 Nano (Minimal)
Claude 4.5 Haiku (Non-Reasoning)
Gemini 2.5 Flash-Lite (Reasoning)
Gemini 3 Flash (Reasoning)
Gemini 2.5 Flash (Reasoning)
GPT-5 Mini (Medium)
Claude 4.5 Haiku (Reasoning)
The model supports a 128K context window, tool usage, and JSON output. Inception is targeting companies with latency-sensitive applications like voice assistants, coding tools, and search systems.
Mercury 2 is available now through an OpenAI-compatible API. Companies can apply for early access, and the model can also be tested directly in the chat.Ad
The AI industry is looking for what comes after the Transformer
Last November, Inception raised $50 million from investors including Microsoft, Nvidia, and Snowflake. The startup showed its first prototype in early 2025. With Mercury 2, Inception is now shipping a production-ready model with reasoning capabilities.
Google Deepmind is also working on diffusion-based language models. Gemini Diffusion performed on par with the then-current Gemini 2.0 Flash Lite model in benchmarks. However, Google hasn't said anything about the diffusion experiment since it was first presented in May 2025.AdDEC_D_Incontent-2
More broadly, a growing number of startups are exploring alternatives to the dominant Transformer architecture. Whether diffusion-based language models can hold up long-term remains an open question.Ad
AI News Without the Hype – Curated by Humans
As a THE DECODER subscriber, you get ad-free reading, our weekly AI newsletter, the exclusive "AI Radar" Frontier Report 6× per year, access to comments, and our complete archive.

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み