JetBrains が 12B モデルの混合専門家モデル「Mellum2」を発表
JetBrains は Hugging Face Blog で、120 億パラメータの MoE モデル「Mellum2」を発表し、開発者支援ツールとしての最適化とオープンソースモデルの進化を示した。
キーポイント
Mellum2 の基本仕様
12B パラメータ規模を持つ Mixture-of-Experts (MoE) アーキテクチャを採用し、計算効率と性能のバランスを追求したモデル。
JetBrains による開発者特化設計
IDE や開発ワークフローとの親和性を意識しており、従来の汎用 LLM とは異なる開発支援ユースケースに最適化されている。
オープンソースエコシステムへの貢献
Hugging Face 上で公開され、コミュニティによる検証と改良を促すことで、AI モデルの透明性と再利用性を高めている。
効率化された MoE アーキテクチャ
12B の総パラメータのうち、各トークンごとにサブセットのみを活性化することで推論効率を高め、リアルタイムワークロードの運用コストを削減します。
多様なユースケースへの適応
軽量なルーティングやオーケストレーション、RAG パイプラインでの文脈圧縮、およびエージェントのサブタスク処理など、大規模モデルを呼び出す前に中間処理を行う用途に最適化されています。
専用スコープの重要性
単一の巨大モデルに依存するのではなく、特定のタスク(コード、テキスト)に特化した「焦点モデル」として設計され、AI システム全体の速度向上と制御容易性を実現します。
影響分析・編集コメントを表示
影響分析
この発表は、大規模言語モデルが汎用チャットボットから特定のドメイン(ここではソフトウェア開発)に特化したツールへと進化していることを示しています。JetBrains という IDE ベンダーが独自モデルを開発・公開することは、開発者ツールの競争領域を「機能」から「AI 能力」へとシフトさせる重要な転換点となり得ます。
編集コメント
IDE ベンダーが独自の大規模モデルを公開する動きは、開発者体験の競争激化を示唆しており、今後のツールチェーンにおける AI の位置づけを考える上で注目に値します。
JetBrains は、120 億パラメータの混合専門家(Mixture-of-Experts, MoE)モデル「Mellum2」を発表しました。このモデルは、大規模言語モデルの効率性と性能を両立させることを目指して設計されています。
Mellum2 は、複数の専門化されたサブネットワーク(エキスパート)を組み合わせて動作するアーキテクチャを採用しています。これにより、入力に応じて必要な計算リソースのみが動的に割り当てられ、推論時のコスト削減と速度向上を実現します。
同モデルは、コード生成、自然言語処理、および多様なタスクにおける高い精度を誇ります。JetBrains の開発者向けツールとの統合も強化されており、ソフトウェアエンジニアリングのワークフローへのスムーズな組み込みが期待されています。
詳細な技術仕様やベンチマーク結果については、公式ブログ記事および Hugging Face のリポジトリをご参照ください。
JetBrains が開発した 12B の混合専門家(Mixture-of-Experts)モデル「Mellum2」をご紹介します(続き 2/5)
このモデルは、複雑なタスクを効率的に処理するために設計された最新のアーキテクチャを採用しています。各専門家が特定の分野に特化することで、全体としての性能と速度の両方を向上させています。
技術的な詳細については、後ほど解説いたしますが、まずはその基本的な仕組みと利点についてご理解ください。
Mellum2 は、大規模言語モデルの限界を突破し、より少ない計算リソースで高い精度を実現することを目指しています。今後の開発において重要な役割を果たすことが期待されています。
- Mellum2 は、自然言語とコードをゼロから学習した 12B パラメータの Mixture-of-Experts モデルです。
- このモデルはトークンあたり 2.5B パラメータのみを活性化するため、高スループットかつ低遅延な推論に効率的です。Mellum2 は、ルーティング、RAG(Retrieval-Augmented Generation)、要約、サブエージェント、高スループットのコーディング機能、およびプライベートデプロイメントに使用できます。
- Apache 2.0 ライセンスの下で公開されています。
- 同規模のモデルと比較して、Mellum2 は競争力のあるベンチマーク性能を発揮しつつ、推論速度を 2 倍以上向上させています。
- Hugging Face でモデルをダウンロード: https://huggingface.co/collections/JetBrains/mellum-2
- アーキテクチャの詳細、トレーニング設定、ベンチマーク、評価手法については、完全な技術レポートをご覧ください: https://arxiv.org/pdf/2605.31268
今日、私たちは低遅延のテキストおよびコードワークロードに最適化されたオープンソースの Mixture-of-Experts モデル「Mellum2」をリリースします。
元々 Mellum はコード補完モデルとして始まりました。Mellum2 では、その基盤を広げ、自然言語とソフトウェアエンジニアリングのより広範なタスクに対応しつつ、効率的な推論とデプロイ可能性に焦点を維持しています。
現代の AI システムでは、ルーティング、検索、要約、計画、検証、ツール利用など、複数のモデル呼び出し increasingly に依存するようになっています。これらの操作の多くは遅延に敏感であり、必ずしも最大規模のモデルを必要としません。
Mellum2 はこうしたワークロードを対象としています。
ベンチマークハイライト
技術レポートでは、コード生成、推論、科学、数学の各ベンチマークにおいて Mellum2 を評価しました。
Mellum2 は同規模のオープンモデルと競合する性能を持ちながら、推論速度は 2 倍以上高速であり、高スループットな本番環境ワークロードに適しています。
モデルアーキテクチャ
Mellum2 は Mixture-of-Experts モデル(MoE)です:
モデル
総パラメータ数
トークンあたりのアクティブパラメータ数
モダリティ
ライセンス
Mellum2
12B
2.5B
テキストとコード
Apache 2.0
MoE アーキテクチャは、モデルの総容量を高い状態に保ちつつ、各トークンに対してパラメータの一部のみを活性化します。これにより推論がより効率的になり、リアルタイムワークロードにおけるサービングコストの削減にも寄与します。
Mellum2 は意図的にマルチモーダルタスクではなく、テキストとコードに焦点を当てています。この専門化により、ソフトウェアエンジニアリング向けワークロードにおいてモデルはコンパクトかつ効率的に保たれています。
主要なユースケース
ルーティングとオーケストレーション
Mellum2 は、プロンプト分類、ツール選択、中間の制御フローステップなどを含むマルチモデルシステムにおいて、軽量なルーティングおよびオーケストレーションモデルとしてよく機能します。
RAG パイプライン
このモデルは、コンテキスト圧縮、要約、検索後の後処理など、レイテンシに敏感な検索パイプラインに適しています。
サブエージェント
Mellum2 は、計画、検証、変換、コンテキスト準備などのエージェントのサブタスクに使用でき、中間操作のために大規模モデルを呼び出す必要性を減らすことができます。
プライベートデプロイ
Mellum2 はオープンかつ効率的に提供されるため、独自コードや内部データを含むセルフホスト環境でのデプロイが可能です。
なぜスコープが明確なモデルが重要なのか
AI システムが成熟するにつれ、最も効果的なアーキテクチャは単一の巨大なものから、より分業化されたものへと変化しています。一つの最先端モデルは強力ですが、本番環境のシステムではしばしば、複数の専門コンポーネントが連携して動作する必要があります:情報検索機能(retrievers)、ルーティング機能(routers)、コード認識型モデル(code-aware models)、検証機能(validators)、ツール呼び出し機能(tool callers)、そして大規模な推論モデルなどです。私たちは Mellum2 を「焦点を絞った」モデルと捉えています。これは、より大きな AI システム内で高頻度で発生するタスクに最適化された、高速かつスコープが明確なモデルです。その目的は、スタック内のすべてのモデルを置き換えることではありません。むしろ、スタック全体をより高速に、低コストで、制御しやすくすることにあります。
Mellum2 の始め方
ソフトウェアエンジニアリングのための AI システム(IDE 内、RAG パイプラインの一部、エージェントワークフローの一環、あるいはプライベートインフラ上)を構築している場合、Mellum2 は すぐに試すことができます。
原文を表示
- Mellum2 is a 12B-parameter Mixture-of-Experts model trained from scratch on natural language and code.
- The model activates only 2.5B parameters per token, making it efficient for high-throughput, low-latency inference.
Mellum2 is can be used for routing, RAG, summarization, sub-agents, high-throughput coding features, and private deployments.
- It is released under the Apache 2.0 license.
- Compared with similar-sized models, Mellum2 delivers competitive benchmark performance while achieving more than 2x faster inference.
- Download the model on Hugging Face: https://huggingface.co/collections/JetBrains/mellum-2
- For architecture details, training setup, benchmarks, and evaluation methodology, read the full technical report: https://arxiv.org/pdf/2605.31268
Today we’re releasing Mellum2, an open Mixture-of-Experts model optimized for low-latency text-and-code workloads.
Mellum originally started as a code completion model. With Mellum2, we extend that foundation to a broader set of natural language and software engineering tasks while keeping the model focused on efficient inference and deployability.
Modern AI systems increasingly rely on multiple model calls: routing, retrieval, summarization, planning, validation, and tool use. Many of these operations are latency-sensitive and do not require the largest available model.
Mellum2 targets these workloads.
Benchmark highlights
In our technical report, we evaluate Mellum2 across code generation, reasoning, science, and math benchmarks.
Mellum2 is competitive with similarly sized open models while delivering more than 2x faster inference, making it suitable for high-throughput production workloads.
Model architecture
Mellum2 is a Mixture-of-Experts model:
Model
Total parameters
Active parameters per token
Modality
License
Mellum2
12B
2.5B
Text and code
Apache 2.0
The MoE architecture keeps total model capacity high while activating only a subset of parameters for each token. This makes inference more efficient and helps reduce serving cost for real-time workloads.
Mellum2 is intentionally focused on text and code rather than multimodal tasks. This specialization keeps the model compact and efficient for software engineering workloads.
Key use cases
Routing and orchestration
Mellum2 works well as a lightweight routing and orchestration model in multi-model systems, including prompt classification, tool selection, and intermediate control-flow steps.
RAG pipelines
The model is well suited for latency-sensitive retrieval pipelines, including context compression, summarization, and retrieval post-processing.
Sub-agents
Mellum2 can be used for agent subtasks such as planning, validation, transformation, and context preparation, reducing the need to invoke larger models for intermediate operations.
Private deployment
Because Mellum2 is open and efficient to serve, it can be deployed in self-hosted environments involving proprietary code or internal data.
Why well-scoped models matter
As AI systems mature, the most effective architectures are becoming less monolithic.
A single frontier model can be powerful, but production systems often need several specialized components working together: retrievers, routers, code-aware models, validators, tool callers, and larger reasoning models.
We think of Mellum2 as a “focal” model: a fast, well-scoped model optimized for high-frequency tasks inside larger AI systems.
The goal is not to replace every model in the stack. The goal is to make the stack faster, cheaper, and easier to control.
Getting started with Mellum2
If you are building AI systems for software engineering – inside an IDE, in a RAG pipeline, as part of an agent workflow, or on private infrastructure – Mellum2 is ready to try.
関連記事
MosaicLeaks:研究エージェントは秘密を守れるか?
Hugging Face は、AI エージェントが機密情報を漏洩するリスクを検証する「MosaicLeaks」という評価フレームワークを発表した。
[AINews] 今日特に大きな出来事はありませんでした
Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み