ミニマックスが109BパラメータMoEモデル向けに開発したスパースアテンション手法「MSA」を発表
MiniMax は、109B パラメータの MoE モデル向けに GQA を基盤とした二重ブランチ型スパースアテンション「MSA」を開発し、長文コンテキストにおける計算コストの quadratic 増大を克服する実用化技術を公開した。
キーポイント
二重ブランチ構造による効率化
インデックスブランチでブロック単位(128 トン)の重要度を評価し、メインブランチで選択されたブロックのみに対して厳密なソフトマックス計算を行うことで、コンテキスト長に依存しない固定コストを実現する。
GQA との統合と共有メカニズム
各 GQA グループ内でインデックス計算を共有し、異なるグループが異なる長距離領域に注意を向けることで、メモリ効率と推論速度の両立を図っている。
非微分可能選択の学習手法
Top-k 選択が非微分可能なため、インデックスブランチの分布をメインブランチのパターンに一致させる KL 正則化損失と勾配切り捨て(Gradient Detach)を用いて安定した訓練を実現している。
実機での実証とオープンソース
3T トークンの予算で学習された 109B パラメータの MoE モデル「MiniMax-M3」に採用され、推論カーネルもオープンソース化されている。
安定化メカニズムとトレーニングルート
Gradient DetachやIndexer Warmupなどの3つのメカニズムがスパース学習を安定させ、MSA-PT(ゼロから)およびMSA-CPT(既存モデルからの転移)の2つのトレーニング経路をサポートします。
カーネル最適化による高速化
Softmaxを使用しないTop-k選択とKV-outer sparse attentionを組み合わせることで、128Kコンテキストにおいてtorch.topkより5.1倍高速な処理を実現しています。
他手法との比較と性能
MSAはGQAグループごとのTop-k選択とブロックレベル選択の組み合わせが特徴で、MMLUやGSM8Kなどのベンチマークにおいてフルアテンションベースラインと競合する高い品質を維持しています。
影響分析・編集コメントを表示
影響分析
この技術は、LLM のコンテキスト窓拡大に伴う計算コストの爆発的増加という業界共通の課題に対し、アーキテクチャレベルで根本的な解決策を提示しています。特に MoE モデルとの親和性が高く、大規模モデルの実用的な長文処理能力を飛躍的に向上させるため、RAG やドキュメント分析などの応用分野での採用が加速すると予想されます。
編集コメント
109B パラメータという大規模 MoE モデルにおいて、GQA をベースにしたスパースアテンションを実装し、実用化レベルの推論性能を達成した点は非常に注目すべき成果です。特に学習プロセスにおける非微分可能問題への対処法は、今後の同種アーキテクチャ研究の重要な指針となるでしょう。
MiniMax は、グループ化クエリアテンション(GQA)を直接基盤としたスパースアテンション手法である MSA(MiniMax Sparse Attention)を発表しました。これは、長いコンテキストにおけるソフトマックスアテンションの二次コストというボトルネックに焦点を当てています。MiniMax の研究チームは、ネイティブなマルチモーダルデータでトレーニングされた 109B パラメータの混合専門家モデル(MoE)内でこれをテストしました。また、推論用カーネルをオープンソース化し、プロダクションモデルである MiniMax-M3 をリリースしています。
MSA(MiniMax Sparse Attention)とは何か
MSA(MiniMax Sparse Attention)はアテンションを 2 つの段階に分解します:インデックスブランチとメインブランチです。インデックスブランチでは、各クエリがどのキーバリュブロックを読み取るべきかを決定します。その後、メインブランチで、選択されたブロックのみに対して正確なソフトマックスアテンションを実行します。
選択はトークン単位ではなく、ブロック粒度で行われます。デフォルトのブロックサイズは Bk = 128 トークンです。各クエリと GQA グループは k = 16 ブロックを保持します。これにより、クエリあたりの予算は kBk = 2,048 のキーバリュトークンに固定されます。
2 つのコスト構造には違いがあります。密な GQA アテンションは、クエリあたり O(N) でスケーリングし、これは完全なコンテキスト長を意味します。一方、MSA は O(kBk) でスケーリングするため、N が成長しても一定に保たれます。したがって、計算量の差はコンテキスト長が増加するほど広がります。
選択は各 GQA グループ内で共有されますが、グループ間では独立しています。1 つのキーバリュヘッドが複数のクエリヘッドを担当し、それらは 1 つのブロックセットを共有します。異なるグループは、異なる長距離領域にアテンションを向けることができます。
2 つのブランチの動作方法
Index Branch は、標準的な GQA レイヤーに投影行列を 2 つ追加するだけです。GQA グループごとに 1 つのインデックスクエリヘッドと、共有される 1 つのインデックスキーヘッドを定義します。そして、可視なキートークンをスコアリングし、そのスコアをブロックレベルで最大プーリングします。
次に、Top-k オペレーターが各クエリおよびグループに対して最もスコアの高いブロックを選択します。クエリを含むローカルブロックは常に含まれます。これにより、セレクターがクエリの近傍領域を除外してしまうのを防ぎます。
Main Branch は、選択されたブロックから因果的に可視なトークンを収集します。そして、それらのトークンに制限されたスケーリングドットプロダクトソフトマックスアテンション(scaled dot-product softmax attention)を適用します。各クエリヘッドは独自のクエリ投影を持ちますが、グループのブロックセットは共有されます。
報告書の可視化図では、学習されたインデクサーが何を選択しているかが示されています。ヘッドはローカルな対角線と最初のブロックに集中し、残りの予算を数本の長距離ストライプのために確保しています。
imagehttps://arxiv.org/pdf/2606.13392v1
imagehttps://arxiv.org/pdf/2606.13392v1
MSA のトレーニング方法
Top-k 選択は微分不可能であるため、言語モデリングの損失関数ではインデックス投影を訓練できません。MSA はこれに対し、KL アライメント損失(KL alignment loss)で解決します。この損失関数は、Index Branch の分布を Main Branch のアテンションパターンに一致させます。教師となるのは、選択されたトークンに対するグループ平均化された Main Branch 分布です。
3 つのメカニズムがスパーストレーニングを安定化させます。Gradient Detach(勾配デタッチ)は、Index Branch(インデックスブランチ)の入力に対して stop-gradient(ストップ勾配)を適用します。これにより、KL 損失(Kullback-Leibler 散逸)がバックボーンではなくインデックス投影に限定されます。これを適用しないと、大きな KL 係数が勾配のスパイクを引き起こし、損失が発散してしまいます。
Indexer Warmup(インデクサーウォームアップ)では、最初の反復において両方のブランチでフルアテンションを実行します。インデクサーはルーティングを制御する前に、KL 損失から学習します。強制された Local Block(ローカルブロック)は、近傍のコンテキスト用のスロットを 1 つ確保しています。
アブレーション実験が最終的なレシピを形作りました。初期のバリアントでは、独自の出力を持つ Index Branch の値ヘッドを追加していました。ウォームアップを使用するようになると、その値ヘッドは不要になります。最終設計では、効率性の観点からこれを削除しました。
MSA は 2 つのトレーニングルートに対応しています。MSA-PT は、40B トークンのインデクサーウォームアップ後にゼロからトレーニングします。MSA-CPT は、2.6T トークンでトレーニングされた密集型 GQA(Grouped Query Attention)チェックポイントを変換し、その後 400B トークン(ウォームアップの 40B トークンを含む)継続してトレーニングを行います。
カーネル共設計
理論的なスパース性は、対応する GPU パスがない限り速度にはなりません。MSA はこのアルゴリズムを 2 つのカーネルアイデアと組み合わせています。
1 つ目は、指数関数なしの Top-k 選択です。Softmax(ソフトマックス)は順序を保存するため、生得点をランク付けしても同じインデックスが得られます。このカーネルは、選択前の最大値計算、指数関数計算、および和計算のステップをスキップします。128K コンテキストで k = 16 の場合、torch.topk よりも 5.1 倍高速でした。また、TileLang radix-select カーネルよりも 3.7 倍速い結果を示しました。
2 つ目は、クエリ集約を伴う KV-outer スパースアテンションです。クエリに対して反復するのではなく KV ブロックに対して反復することで、演算強度が向上します。カーネルは ⌈128/G⌉ 個のクエリ位置を 1 つの 128×128 スコア MMA(行列乗算)にパックします。2 フェーズのフォワードパスにより、アテンション計算と結合ステップが CTAs(Compute Threads Aggregators)間で分割・統合されます。
オープンソースカーネル「fmha_sm100」は NVIDIA SM100 GPU を対象としています。MIT ライセンスの下で、密な FlashAttention およびスパース Top-k カーネルを提供しています。BF16、FP8、NVFP4、および FP4 精度をサポートしています。
MSA の他のスパース手法との比較
研究チームは、MSA を 4 つのネイティブトレーニング済みスパース設計と比較して位置付けています。
以下の表は、それらが記述する違いを要約したものです。
方法バックボーン選択粒度インデクサ/選択信号
MSAGQABlock-level (B_k = 128)、per-GQA-group Top-kKL アライメント損失
NSAMQA / MHA圧縮+選択ブロック+スライディングウィンドウネイティブ(エンドツーエンド)トレーニング
InfLLM-V2Dense
imageスパース切り替えパラメータフリーなブロック選択+スライディングウィンドウパラメータフリー(学習済みインデクサなし)
MoBAGQAVery large KV blocks (block-averaged keys)LM グラディエントのみ
DSAMLA (MQA mode)トークンレベル;ヘッド全体で共有される単一 Top-kReLU ライトニングインデクサ
MSA の特徴的な組み合わせは、per-GQA-group Top-k 共有とブロックレベル選択の併用です。これにより KV 読み取りが連続性を保ちつつ、各グループに独自の検索機能が付与されます。
品質面でも妥当性が示されています。両方のスパースモデルとも、フルアテンションベースラインと比較して全般的に競争力を持っています。
以下の表は、3T トークンの予算条件下での代表的な結果を示しています。
ベンチマーク フル MSA-PT MSA-CPT
MMLU 67.0 67.2 66.8
GSM8K 76.2 77.7 73.7
HumanEval 61.0 64.0 57.9
RULER-8K 79.8 84.2 77.2
RULER-32K 75.0 77.5 75.7
VideoMME 41.1 45.48 39.65
長文コンテキスト拡張後、MSA-CPT は HELMET-128K および RULER-128K においてフルモデルとほぼ同等の性能を維持しました。各クエリは依然として、キー・バリュートークン(key-value tokens)に対してのみ 2,048 トークンを参照するに留まります。
解説プレイグラウンド
(function(){
window.addEventListener("message", function(e){
if(e && e.data && e.data.msaDemoHeight){
var f = document.getElementById("msa-demo-frame");
if(f){ f.style.height = e.data.msaDemoHeight + "px"; }
}
});
})();
使用例と具体例
MSA は、コンテキスト長がデプロイにおけるボトルネックとなるワークロードを対象としています。
長期ホライズンのエージェント:数百の推論およびアクションステップにわたるエージェントは、膨大なトランスクリプトを蓄積します。その履歴全体に対して密なアテンション(dense attention)を適用すると計算量が二次関数的に増加します。MSA は、コンテキスト長に関わらず、各クエリあたりの予算を 2,048 トークンに固定します。
リポジトリ規模のコード推論:完全なリポジトリを読み込むコーディングエージェントは、数十万トークンを超過する可能性があります。インデックス(indexer)は、各クエリを少数の関連ブロックへルーティングします。無関係なファイルは選択されたセットの外に留まります。
永続的メモリ:長時間稼働するアシスタントは、会話状態を継続的に成長させます。MSA は、各クエリごとに最も関連性の高いブロックから固定サイズのスライスを読み取ります。メモリが成長しても、デコーディングコスト(decoding cost)はおおむね平坦に保たれます。
長編動画の理解:本モデルはネイティブにマルチモーダルであり、画像および動画データでトレーニングされています。MSA-PT は、VideoMME や TemporalBench を含む複数の動画ベンチマークにおいて、3 つの実行の中で最高スコアを記録しました。スパース選択は、長い視覚トークンシーケンスに対してスケーラブルです。
カーネルの実行
最速のパスには Hugging Face kernels ライブラリを使用します。
コードをコピー コピー済み 別のブラウザを使用する
pip install -U kernels
from kernels import get_kernel
kernel_module = get_kernel("MiniMaxAI/msa", version=0)
sparse_atten_func = kernel_module.sparse_atten_func
sparse_atten_func(...)
本リポジトリでは、プランナー、インデクサー、およびアテンション呼び出しも直接紹介されています。
コードをコピー コピー済み 別のブラウザを使用する
import torch
from fmha_sm100 import fmha_sm100, fmha_sm100_plan, sparse_topk_select
page_size, topk = 128, 16
密なプロキシパス:安価な Q スライスからのブロックごとの最大スコア。
proxy_plan = fmha_sm100_plan(
qo_lens, kv_lens, proxy_q.shape[1],
num_kv_heads=1, page_size=page_size, output_maxscore=True,
)
_, max_score = fmha_sm100(
proxy_q, proxy_k_pages, proxy_v_pages, proxy_plan,
kv_indices=kv_indices, output_o=False, output_maxscore=True,
)
ブロックスコア -> 選択された KV ブロックインデックス。
kv_block_indexes = sparse_topk_select(
max_score.contiguous(), topk, num_valid_pages=num_pages,
)
選択されたブロックに対するスパースアテンション。
sparse_plan = fmha_sm100_plan(
qo_lens, kv_lens, q.shape[1],
num_kv_heads=k_pages.shape[1], page_size=page_size, kv_block_num=topk,
)
out, _ = fmha_sm100(
q, k_pages, v_pages, sparse_plan,
kv_indices=kv_indices, kv_block_indexes=kv_block_indexes,
)
これらはリポジトリの公式な使用例です。入力は呼び出し元が用意するページ化されたキーバリュートンテン(paged key-value tensors)です。最初の実行ではインデクサーが JIT コンパイルされ、数分かかる場合があります。必要な要件は SM100 GPU、CUDA Toolkit、および Python 3.10 以上です。
強みと弱み
強み
報告された設定において、1M コンテキストでトークンあたりのアテンション計算量が 28.4 倍減少します。
測定された実時間での速度向上は、H800 上で 1M の場合、プリフェッチで 14.2 倍、デコーディングで 7.6 倍に達します。
この設計では、標準的な GQA(Grouped Query Attention)層に投影行列を 2 つ追加するだけです。
ゼロからのトレーニングと、密なチェックポイントからの変換の両方をサポートしています。
推論用カーネルは MIT ライセンスの下で公開されています。
弱みと未解決の課題
公開されたカーネルは NVIDIA SM100 を対象としており、他のアーキテクチャには別々の作業が必要です。
一部のサブタスクでは、完全なアテンションと比較して残留する長文コンテキスト検索のギャップが存在します。
報告された速度向上は、特定のヘッド構成と H800 環境を前提としています。
KL 損失(Kullback-Leibler divergence)により、単純な密な層に比べてトレーニング時の計算複雑性が増加します。
結果はミニマックス社の独自評価スイートに基づくものであり、第三者による再現ではありません。
完全論文とリポジトリをご覧ください。また、Twitter でフォローしていただくこともお気軽にどうぞ。15 万人以上の ML サブレッドに参加することや、ニュースレターを購読することも忘れないでください。待ってください!Telegram をご利用ですか?今なら Telegram でも私たちに参加いただけます。
GitHub リポジトリの宣伝、Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションをご希望の場合は、ぜひご連絡ください。
本記事「MiniMax Sparse Attention (MSA): 109B パラメータの MoE で 3T トークン予算で訓練された 2 ブランチブロックスパースアテンション」は、MarkTechPost にて最初に公開されました。
原文を表示
MiniMax released MSA (MiniMax Sparse Attention), a sparse attention method built directly on Grouped Query Attention (GQA). It targets one bottleneck: the quadratic cost of softmax attention at long context. The MiniMax research team tested it inside a 109B-parameter Mixture-of-Experts model trained with native multimodal data. They also open-sourced an inference kernel and shipped a production model, MiniMax-M3.
What is MSA (MiniMax Sparse Attention)
MSA (MiniMax Sparse Attention) factors attention into two stages: an Index Branch and a Main Branch. The Index Branch decides which key-value blocks each query should read. The Main Branch then runs exact softmax attention over only those blocks.
Selection happens at block granularity, not per token. The default block size is Bk = 128 tokens. Each query and GQA group keeps k = 16 blocks. That fixes the per-query budget at kBk = 2,048 key-value tokens.
The two cost structures differ. Dense GQA attention scales per query as O(N), the full context. MSA scales as O(kBk), which stays fixed as N grows. The compute gap therefore widens as context length increases.
Selection is shared inside each GQA group but independent across groups. One key-value head serves several query heads, and they share one block set. Different groups can attend to different long-range regions.
How the Two Branches Work
The Index Branch adds only two projection matrices to a standard GQA layer. It defines one index query head per GQA group and one shared index key head. It scores visible key tokens, then max-pools those scores to the block level.
A Top-k operator then selects the highest-scoring blocks per query and group. The local block containing the query is always included. This prevents the selector from dropping the query’s immediate neighborhood.
The Main Branch gathers causally visible tokens from the selected blocks. It applies scaled dot-product softmax attention restricted to those tokens. Each query head keeps its own query projection but shares the group’s block set.
A visualization in the report shows what the learned indexer selects. Heads concentrate on the local diagonal and the first block. They reserve the rest of the budget for a few long-range stripes.
imagehttps://arxiv.org/pdf/2606.13392v1
imagehttps://arxiv.org/pdf/2606.13392v1
How MSA is Trained
Top-k selection is non-differentiable, so the language-modeling loss cannot train the index projections. MSA solves this with a KL alignment loss. The loss matches the Index Branch distribution to the Main Branch attention pattern. The teacher is the group-averaged Main Branch distribution over the selected tokens.
Three mechanisms stabilize sparse training. Gradient Detach applies stop-gradient to the Index Branch input. This confines the KL loss to the index projections, not the backbone. Without it, larger KL coefficients caused gradient spikes and loss divergence.
Indexer Warmup runs full attention in both branches for the first iterations. The indexer learns from the KL loss before it controls routing. The forced Local Block reserves one slot for nearby context.
Ablations shaped the final recipe. An early variant added an Index Branch value head with its own output. Once warmup is used, that value head is no longer necessary. The final design drops it on efficiency grounds.
MSA supports two training routes. MSA-PT trains from scratch after a 40B-token indexer warmup. MSA-CPT converts a dense GQA checkpoint trained on 2.6T tokens. It then continues for 400B tokens, including 40B tokens of warmup.
The Kernel Co-Design
Theoretical sparsity does not become speed without a matching GPU path. MSA pairs the algorithm with two kernel ideas.
The first is exp-free Top-k selection. Softmax preserves order, so ranking raw scores yields identical indices. The kernel skips the max, exp, and sum steps before selection. At 128K context with k = 16, it ran 5.1× faster than torch.topk. It also beat the TileLang radix-select kernel by 3.7×.
The second is KV-outer sparse attention with query gather. Iterating over KV blocks raises arithmetic intensity versus iterating over queries. The kernel packs ⌈128/G⌉ query positions into one 128×128 score MMA. A two-phase forward splits the attention and combine steps across CTAs.
The open-source kernel, fmha_sm100, targets NVIDIA SM100 GPUs. It ships dense FlashAttention plus sparse Top-k kernels under an MIT license. It supports BF16, FP8, NVFP4, and FP4 precision.
How MSA Compares To Other Sparse Methods
The research team positions MSA against four natively trained sparse designs.
The table below summarizes the differences it describes.
MethodBackboneSelection granularityIndexer / selection signal
MSAGQABlock-level (B_k = 128), per-GQA-group Top-kKL alignment loss
NSAMQA / MHACompressed + selected blocks + sliding windowNative (end-to-end) training
InfLLM-V2Dense
imagesparse switchableParameter-free block selection + sliding windowParameter-free (no trained indexer)
MoBAGQAVery large KV blocks (block-averaged keys)LM gradient only
DSAMLA (MQA mode)Token-level; single Top-k shared across headsReLU lightning indexer
MSA’s distinguishing pair is per-GQA-group Top-k sharing combined with block-level selection. This keeps KV reads contiguous while giving each group its own retrieval.
The quality side holds up. Both sparse models stay broadly competitive with the Full-Attention baseline.
The table below shows representative results under the 3T-token budget.
BenchmarkFullMSA-PTMSA-CPT
MMLU67.067.266.8
GSM8K76.277.773.7
HumanEval61.064.057.9
RULER-8K79.884.277.2
RULER-32K75.077.575.7
VideoMME41.1145.4839.65
After long-context extension, MSA-CPT stayed close to Full on HELMET-128K and RULER-128K. Each query still attends to only 2,048 key-value tokens.
Explainer Playground
(function(){
window.addEventListener("message", function(e){
if(e && e.data && e.data.msaDemoHeight){
var f = document.getElementById("msa-demo-frame");
if(f){ f.style.height = e.data.msaDemoHeight + "px"; }
}
});
})();
Use Cases With Examples
MSA targets workloads where context length is the binding deployment constraint.
Long-horizon agents: An agent that spans hundreds of reasoning and action steps accumulates a large transcript. Dense attention over that history grows quadratically. MSA holds the per-query budget at 2,048 tokens regardless of length.
Repository-scale code reasoning: A coding agent loading a full repository can exceed hundreds of thousands of tokens. The indexer routes each query to the few relevant blocks. Irrelevant files stay outside the selected set.
Persistent memory: A long-running assistant keeps growing conversational state. MSA reads a fixed-size slice of the most relevant blocks per query. The decoding cost stays roughly flat as memory grows.
Long video understanding: The model is natively multimodal and trained on image and video data. MSA-PT scored highest of the three runs on several video benchmarks, including VideoMME and TemporalBench. Sparse selection scales to long visual token sequences.
Running the Kernel
The fastest path uses the Hugging Face kernels library.
Copy CodeCopiedUse a different Browser
pip install -U kernels
from kernels import get_kernel
kernel_module = get_kernel("MiniMaxAI/msa", version=0)
sparse_atten_func = kernel_module.sparse_atten_func
sparse_atten_func(...)
The repository also showcases the planner, indexer, and attention call directly.
Copy CodeCopiedUse a different Browser
import torch
from fmha_sm100 import fmha_sm100, fmha_sm100_plan, sparse_topk_select
page_size, topk = 128, 16
Dense proxy pass: per-block max score from a cheap Q slice.
proxy_plan = fmha_sm100_plan(
qo_lens, kv_lens, proxy_q.shape[1],
num_kv_heads=1, page_size=page_size, output_maxscore=True,
)
_, max_score = fmha_sm100(
proxy_q, proxy_k_pages, proxy_v_pages, proxy_plan,
kv_indices=kv_indices, output_o=False, output_maxscore=True,
)
Block scores -> selected KV block indexes.
kv_block_indexes = sparse_topk_select(
max_score.contiguous(), topk, num_valid_pages=num_pages,
)
Sparse attention over the selected blocks.
sparse_plan = fmha_sm100_plan(
qo_lens, kv_lens, q.shape[1],
num_kv_heads=k_pages.shape[1], page_size=page_size, kv_block_num=topk,
)
out, _ = fmha_sm100(
q, k_pages, v_pages, sparse_plan,
kv_indices=kv_indices, kv_block_indexes=kv_block_indexes,
)
These are the repository’s official usage examples. The inputs are paged key-value tensors that the caller prepares. The first run JIT-compiles the indexer, which can take a few minutes. Requirements are an SM100 GPU, CUDA Toolkit, and Python 3.10 or higher.
Strengths and Weaknesses
Strengths
Per-token attention compute drops 28.4× at 1M context in the reported setting.
Measured wall-clock speedups reach 14.2× prefill and 7.6× decoding at 1M on H800.
The design adds only two projection matrices to a standard GQA layer.
It supports both from-scratch training and conversion from dense checkpoints.
The inference kernel is released under an MIT license.
Weaknesses and open questions
The released kernel targets NVIDIA SM100; other architectures need separate work.
A residual long-context retrieval gap remains versus full attention on some subtasks.
Reported speedups assume a specific head configuration and the H800 setup.
The KL loss adds training-time complexity over a plain dense layer.
Results come from the MiniMax’s own evaluation suite, not third-party reproduction.
Check out the Full Paper and Repo. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.
Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us
The post MiniMax Sparse Attention (MSA): a Two-Branch Block-Sparse Attention Trained on a 109B-Parameter MoE With a 3T-Token Budget appeared first on MarkTechPost.
関連記事
[AINews] GLM は GPT より優れているか?GLM-5.2 が実用性を証明、Z.ai が 12 月までに「Open Fable」を公開予定
Latent Space のニュースでは、中国のモデル「GLM-5.2」がベンチマークで優れた結果を示し実用性があると評価されたことと、Z.ai が 12 月までにオープンソースプロジェクト「Open Fable」を発表する見込みについて報じられています。
Salesforce CodeGen チュートリアル:ユニットテストと安全性チェック付きの Python 関数の生成・検証・再ランク付け
Salesforce は Hugging Face からモデルを読み込み、自然言語から Python 関数を生成するエンドツーエンドワークフローを公開した。この手法には構文チェックや静的解析、ユニットテストによる検証が含まれる。
CloudWatch の SageMaker メトリクスとインサイトダッシュボードを用いた生成 AI 推論の監視・デバッグ
AWS は、大規模な生成 AI 推論エンドポイントの P99 レイテンシ急上昇などのトラブルを GPU メモリ圧力や KV キャッシュ飽和などから特定できるよう、CloudWatch に SageMaker の詳細メトリクスとインサイトダッシュボードを追加した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み