#sparse attention のAIニュース

5件の記事

ミニマックスが109BパラメータMoEモデル向けに開発したスパースアテンション手法「MSA」を発表

中国のAI企業ミニマックスは、長文コンテキストにおける計算コストを削減する新手法「MiniMax Sparse Attention（MSA）」を開発し、109BパラメータのMoEモデルで実証した。同社はさらに推論用カーネルをオープンソース化し、生産環境向けモデル「MiniMax-M3」もリリースした。

MarkTechPost·6月17日·★★★★

MiniMax のスパースアテンション技術が百万トークンコンテキストを実現（GitHub リポジトリ）

MiniMax が開発したスパースアテンションアーキテクチャは、グループ固有の Top-k ブロック選択を用いて、モデル品質を維持しつつ 109B モデルで 1M トークンの推論計算量を約 30 倍削減し、GQA と同等のパフォーマンスを達成しました。

TLDR AI·6月15日·★★★★

FlashMemory DeepSeek-V4 リトリーバー（GitHub リポジトリ）

FlashMemory は、DeepSeek-V4 の KV キャッシュのうち将来のトークンが参照する可能性が高い断片を予測し、GPU 上に最も関連性の高い断片のみを保持します。これにより、デバイスのメモリ使用量を約 10〜15% に抑えつつ、下流タスクのパフォーマンスを維持または向上させることが報告されています。

TLDR AI·6月10日·★★★★

効率的な推論のための MiniMax-M3 の提供：後悔のない 100 万トークンコンテキストとマルチモーダル性の解放

Together AI は、MiniMax-M3 モデルの提供を開始し、100 万トークンのコンテキスト長とマルチモーダル機能を効率的に実現した。

Together AI Blog·6月2日·★★★★

DeepSeek V3からV3.2へ：アーキテクチャ、スパースアテンション、RLアップデート

DeepSeekの主力オープンウェイトモデルが、アーキテクチャの改良、スパースアテンションの導入、強化学習による更新を通じて進化した過程を解説。

Sebastian Raschka·12月3日·★★★★