#sparse attention のAIニュース
5件の記事
ミニマックスが109BパラメータMoEモデル向けに開発したスパースアテンション手法「MSA」を発表
中国のAI企業ミニマックスは、長文コンテキストにおける計算コストを削減する新手法「MiniMax Sparse Attention(MSA)」を開発し、109BパラメータのMoEモデルで実証した。同社はさらに推論用カーネルをオープンソース化し、生産環境向けモデル「MiniMax-M3」もリリースした。
MarkTechPost·6月17日·★★★★
MiniMax のスパースアテンション技術が百万トークンコンテキストを実現(GitHub リポジトリ)
MiniMax が開発したスパースアテンションアーキテクチャは、グループ固有の Top-k ブロック選択を用いて、モデル品質を維持しつつ 109B モデルで 1M トークンの推論計算量を約 30 倍削減し、GQA と同等のパフォーマンスを達成しました。
TLDR AI·6月15日·★★★★
FlashMemory DeepSeek-V4 リトリーバー(GitHub リポジトリ)
FlashMemory は、DeepSeek-V4 の KV キャッシュのうち将来のトークンが参照する可能性が高い断片を予測し、GPU 上に最も関連性の高い断片のみを保持します。これにより、デバイスのメモリ使用量を約 10〜15% に抑えつつ、下流タスクのパフォーマンスを維持または向上させることが報告されています。
TLDR AI·6月10日·★★★★
効率的な推論のための MiniMax-M3 の提供:後悔のない 100 万トークンコンテキストとマルチモーダル性の解放
Together AI は、MiniMax-M3 モデルの提供を開始し、100 万トークンのコンテキスト長とマルチモーダル機能を効率的に実現した。
Together AI Blog·6月2日·★★★★
DeepSeek V3からV3.2へ:アーキテクチャ、スパースアテンション、RLアップデート
DeepSeekの主力オープンウェイトモデルが、アーキテクチャの改良、スパースアテンションの導入、強化学習による更新を通じて進化した過程を解説。
Sebastian Raschka·12月3日·★★★★