#mixture-of-experts のAIニュース

20件の記事

百度、長文解析向け KV キャッシュを一定に保つ 3B モデル「Unlimited OCR」を発表

百度は、出力が増加してもメモリ使用量が一定となる「Reference Sliding Window Attention」を採用した 3B パラメータモデル「Unlimited OCR」を発表し、長文の OCR 処理を高速化した。

プライム・インテレクト、トリリオンパラメータの MoE モデルをアジェンティック RL ワークロードで訓練する「prime-rl 0.6.0」をリリース

Prime Intellect は、長期的なソフトウェアエンジニアリングタスクなどの重いアジェンティック RL ワークロード向けに設計された「prime-rl 0.6.0」を公開した。このフレームワークは、28 台の H200 ノードのみで GLM-5 を訓練し、13 万トークンのシーケンス長でもステップ時間を 5 分以内に抑えることに成功している。

MarkTechPost·6月23日·★★★★

Cohere が開発者向けコード生成モデル「North Mini Code」を発表：30B パラメータの MoE アーキテクチャで 3B アクティブ

Cohere AI チームは、ソフトウェアエンジニア向けのオープンウェイトコード生成モデル「North Mini Code」を公開した。このモデルは総パラメータ数 30B の混合専門家（MoE）アーキテクチャを採用し、トークン処理時に 3B のパラメータのみが活性化するように設計されている。

MarkTechPost·6月11日·★★★★

NVIDIA Nemotron 3 Ultra が長時間実行型エージェントの推論を高速化・効率化

NVIDIA は、長時間実行型エージェントが推論を行い、文脈を維持し、ツールを活用して効率的に動作するための新モデル「Nemotron 3 Ultra」を発表した。これにより、単発チャットボットから複雑なタスクをこなすエージェントへの進化が加速する。

NVIDIA Developer Blog·6月4日·★★★★

JetBrains の Mellum 2（49 分読み）

JetBrains が開発ツール「Mellum」のバージョン 2 を公開し、詳細な機能解説を 49 分間の読了量で提供している。

TLDR AI·6月2日·★★★★

JetBrains が 12B モデルの混合専門家モデル「Mellum2」を発表

JetBrains は、推論効率を高めるための 120 億パラメータ規模の混合専門家（MoE）モデル「Mellum2」を発表した。同社はコード生成や開発支援に特化したこの新モデルの詳細を紹介している。

Hugging Face Blog·6月2日

エンタープライズ対応マルチモーダルAI「Step 3.7 Flash」をNVIDIA GPU上で実行可能に

NVIDIAが、エンタープライズ向けマルチモーダルAIモデル「Step 3.7 Flash」を自社のGPU環境で効率的に実行できる機能を公開した。これにより、企業は高性能なAI処理を迅速に導入できるようになる。

NVIDIA Developer Blog·5月29日·★★★★

エキスパートモデルにおける突発的モジュール性の発見

アレンAIが、事前学習データから直接モジュール化されたエキスパート組織を学習する「EMO」を発表した。このモデルは、全性能を維持しつつタスク実行に必要となるエキスパート数を全体の12.5%に削減できる。

TLDR AI·5月11日·★★★★

SpecMD：予測的専門家プリフェッチングに関する包括的研究

研究者らは、Mixture-of-Experts モデルの性能向上に不可欠な専門家のキャッシュ機構について、既存のハードウェア中心の方策との相互作用を解明するため、標準化された研究手法「SpecMD」を開発した。

Apple Machine Learning·5月6日·★★★★

個別訓練、統合結合：Mixture-of-Expertsを用いたモジュール化ポストトレーニング

Google ResearchはBAR手法を提案した。これは言語モデルの能力ごとにドメイン専門家を独立して訓練し、単一のMoEモデルに統合するプロセスである。この手法により、特定の専門家のアップグレードが他の専門家に影響を与えずに行える。

Allen AI (AI2)·4月20日·★★★★

Gemma 4：バイト単位で最も能力の高いオープンモデル

Google DeepMindが、2B、4B、31Bサイズの3つの視覚対応推論LLMと、26B-A4BのMixture-of-Expertsモデル、計4つのApache 2.0ライセンスのオープンモデルを発表した。同社は「パラメータあたりの知能レベルが前例ない」と強調し、小型で有用なモデルの開発が現在の研究の最重要分野の一つであることを示している。

Simon Willison Blog·4月3日·★★★★

NVIDIAがNemotron-Cascade 2をリリース：3Bの活性化パラメータを持つオープンな30B MoEモデルで、推論能力とエージェント機能を強化

NVIDIAは、30BのMixture-of-Expertsモデルで3Bの活性化パラメータを持つNemotron-Cascade 2を公開した。このモデルは「知能密度」を最大化し、フロンティアモデルよりも少ないパラメータで高度な推論能力を提供し、2025年の国際数学オリンピックなどでゴールドメダルレベルの性能を達成した。

MarkTechPost·3月21日·★★★★