#moe のAIニュース

25件の記事

ミニマックスが109BパラメータMoEモデル向けに開発したスパースアテンション手法「MSA」を発表

中国のAI企業ミニマックスは、長文コンテキストにおける計算コストを削減する新手法「MiniMax Sparse Attention(MSA)」を開発し、109BパラメータのMoEモデルで実証した。同社はさらに推論用カーネルをオープンソース化し、生産環境向けモデル「MiniMax-M3」もリリースした。

MarkTechPost·6月17日·★★★★

最速・最大・最強:NVIDIA Blackwell が MLPerf Training 6.0 で圧勝

NVIDIA は Blackwell プラットフォームで MLPerf Training 6.0 ベンチマークを支配し、8,192 GPU を使用した最速かつ最大のトレーニング時間を達成しました。NVLink や NVFP4 の革新により MoE モデルの効率的なルーティングが可能になり、信頼性機能も大規模 AI 環境での稼働率向上に貢献しています。

TLDR AI·6月17日·★★★★

高度な融合カーネルによる MoE 学習スループットの向上

NVIDIA は、高度な融合カーネル技術を活用することで、混合専門家モデル(MoE)の学習処理速度を大幅に向上させる手法を発表した。

NVIDIA Developer Blog·6月16日·★★★★

Kimi K2.7 Code(Hugging Face リポジトリ)

Moonshot AI が、複雑なソフトウェア開発ワークフローでのタスク完了能力とトークン効率を向上させたコーディング特化型エージェントモデル「Kimi K2.7 Code」を発表した。この Mixture-of-Experts 構造を持つモデルは総パラメータ数が1兆に達し、OpenAI や Anthropic と互換性のある API を通じて利用可能である。

TLDR AI·6月15日·★★★★

シャオミのMiMoとTileRTが汎用GPU上で1兆パラメータモデルを秒間1000トークン超で推論

シャオミのMiMoチームとTileRTシステムグループは、汎用GPU上で1兆パラメータ規模のモデルを秒間1000トークン超(最大約1200)で推論する新技術「MiMo-V2.5-Pro-UltraSpeed」を発表した。

MarkTechPost·6月9日·★★★★★

[AINews] 今日は何も大きな出来事はありませんでした

Anthropic が RSI の兆候を示し、OpenAI の ChatGPT が月間アクティブユーザー数で 10 億人を突破。SpaceX AI は IPO について説明しているが、最も重要なのは AIE WF のチケット確保とイベント参加である。

Latent Space·6月5日·★★★★

マイクロソフト、新しい MAI モデルを発表

マイクロソフトは今朝、推論に特化した「MAI-Thinking-1」と GitHub コード生成向けに設計された「MAI-Code-1-Flash」の 2 つの新しいテキスト大規模言語モデルを発表した。

Simon Willison Blog·6月3日·★★★★

MiniMax、新スパースアテンション機構と15.6倍の長文コンテキスト応答速度向上を備えた次期M3モデルを発表

中国のAI企業MiniMaxは、人気シリーズ「M2」の開発に関する技術報告書を公開し、次期モデル「M3」で採用する新スパースアテンション機構を紹介した。この技術により長文コンテキストでのデコード速度が最大15.6倍向上し、超長文コンテキスト対応AIエージェントの経済的実現が可能になる見込みである。

TLDR AI·5月29日·★★★★

[AINews] フロンティアラボでの就職に成功する方法(事前学習編)

Vlad Feinberg氏が、GoogleやTPUを重視した視点から、フロンティアAI研究所で職を得るための準備方法を解説している。

Latent Space·5月19日·★★★★

思考機械が新モデル「TML-Interaction-Small」を発表、リアルタイム音声のSOTAを達成し標準VADを不要に

思考機械(Thinking Machines)は、2760億パラメータのMoEモデル「TML-Interaction-Small」を発表した。このモデルはリアルタイム音声処理における最新技術水準を更新し、従来の音声検出機能(VAD)を不要にする成果を示している。

Latent Space·5月12日·★★★★

アステラ・ラボズがニビディアの NVSwitch に代わる大規模 AI システム向けスイッチを発表

アステラ・ラボズは火曜日、ニビディアの NVSwitch に代わる「Scorpio X」と名付けられた AI ファブリックスイッチを公開した。同社はこの製品がほぼすべてのアクセラレータと動作し、1 つの ASIC で 320 ラーンの PCIe 6.0 接続と 5.12 TB/s の双方向帯域幅を実現できると主張している。

The Register AI/ML·5月6日·★★★★

今日は何も起こらなかった

OpenAI が汎用推論モデルを用いてエルデシュの単位距離問題に反証を示し、数学者らによって検証された。一方、Cohere はオープンソースの「Command A+」をリリースした。

Smol AI News·5月4日·★★★★★

本日は特に目立った出来事なし

AIニュース配信「AINews」は、2026年4月27日から28日にかけて12のサブレッドと544件のツイートを調査したが、特筆すべき技術進展や業界動向は見られず、静かな一日であったと報告している。

Smol AI News·4月28日·★★★★

DeepSeek V4 ProおよびFlashモデル、Huawei Ascendチップで動作可能に

DeepSeekが大型遅延を経てDSV4をリリース。これは2024年12月のDSV3以来の主要バージョンであり、現在オープンモデルリーダーであるKimi K2.6やXiaomi Mimo 2.5と肩を並べる水準に達した。

Latent Space·4月25日·★★★★

Moonshot Kimi K2.6:世界最高峰のオープンモデルがOpus 4.6に追いつくよう刷新

MoonshotはKimi K2.6をリリースし、中国のオープンモデル分野での首位を維持した。この刷新版は継続的な前処理・後処理学習により、Opus 4.6に追いつく性能を目指している。

Latent Space·4月21日·★★★★

本日は特に大きな出来事なし

2026年4月18日から20日までのAIニュースを、12のサブレッドと544件のツイッター投稿から収集した結果、特筆すべき大きな出来事は確認されなかった。

Smol AI News·4月20日·★★★★

ワープデコードによるMoEモデル推論の改善

研究チームが、Mixture of Experts(MoE)モデルの推論効率を向上させる「ワープデコード」技術を開発した。この技術は、複数の専門家モデルを効率的に処理することで、推論速度とリソース使用率を改善する。

Cursor Blog·4月6日·★★★★

Composer 2に関する技術レポート

Composer 2が、依存関係管理ツールとして、パフォーマンス向上や新機能を提供する技術的詳細を公開した。

Cursor Blog·3月27日·★★★★

Appleの「LLM in a Flash」を活用してQwen 397Bをローカルで実行する自動研究

研究者のDan Woodsが、Appleの「LLM in a Flash」技術を応用し、通常209GB(量子化後120GB)のQwen3.5-397B-A17Bモデルを48GB MacBook Pro M3 Maxで5.5+トークン/秒で動作させることに成功した。

Simon Willison Blog·3月19日·★★★★

トランスフォーマーにおけるエキスパート混合(MoEs)

トランスフォーマーモデルに複数の専門家ネットワークを組み合わせるMoE手法を紹介。効率的な計算と高性能化を実現する技術で、大規模AIモデルの開発に寄与。

Hugging Face Blog·2月26日·★★★★

なぜNvidiaはオープンモデルを構築するのか:ブライアン・カタンザロに聞く

Nvidiaは2025年にオープンモデルプログラムを大幅に強化し、高品質なモデルやデータセットの公開を進めている。技術担当副社長のブライアン・カタンザロ氏は、12月に公開された「Nemotron 3 Nano」や今後の大型モデルについて説明し、オープン化が同社のビジネスに利益をもたらす理由を語った。

Interconnects·2月5日·★★★★

ハイブリッドエキスパート並列によるMixture-of-Expertsトレーニングの通信最適化

NVIDIAが、大規模MoEモデルのトレーニングにおけるエキスパート並列通信の課題を解決するハイブリッド手法を提案した。

NVIDIA Developer Blog·2月3日·★★★★

最新オープンアーティファクト(第18号):Arceeの400B MoE、LiquidAIの過小評価された1Bモデル、新型Kimi、そして活発な月の予感

2025年1月はモデルリリースが低調だったが、DeepSeek V4やClaude Sonnet 5の公開期待が高まっている。Arceeの400B MoEやLiquidAIの1Bモデルなど、注目のオープンソースモデルが注目される中、業界は今後の活発な動向を見据えている。

Interconnects·2月2日·★★★★

DeepSeek-V3の新論文公開:ハードウェア連携設計による低コスト大規模モデル学習の秘密

DeepSeekチームは、CEO梁文鋒共著の新論文で、大規模言語モデルの学習におけるハードウェア課題とアーキテクチャ設計の関係を明らかにした。この研究は、低コストで大規模モデルを訓練するためのハードウェア aware な協調設計の手法を示している。

Synced Review·5月16日·★★★★★

Qwen3:より深く思考し、より高速に動作する

Qwenチームは最新大規模言語モデル「Qwen3」を公開した。主力モデルと小型MoEモデルは、コーディングや数学で他トップモデルと互角の結果を示し、先行版を上回る性能を達成した。

Qwen Blog·4月29日·★★★★