Laguna XS 2.1 の紹介(5 分読了)
Laguna は、ローカルマシンでのエージェントコーディングと長期タスクに最適化された 33B パラメータの MoE モデル「Laguna XS 2.1」をリリースし、特に多言語 SWE-bench で顕著な性能向上を示した。
キーポイント
モデルアーキテクチャと設計目的
33B 総パラメータのうち 1 トークンあたり 3B を活性化させる Mixture-of-Experts (MoE) アーキテクチャを採用し、ローカル環境でのエージェントコーディングおよび長期ホライズンのタスク実行に特化している。
ベンチマーク性能の向上
前作 XS.2 を上回る性能を示し、特に SWE-bench Multilingual で 5.4 ポイント上昇して 63.1% の解決率を達成したほか、ターミナルスタイルのタスクでも強力なパフォーマンスを発揮する。
競合モデルとの比較
Qwen3.6 や GPT-oss-120b などの大規模モデルと比較される中で、より軽量なパラメータ数でありながら高い実用性を示すことを強調している。
影響分析・編集コメントを表示
影響分析
このリリースは、大規模クラウドモデルへの依存を減らしつつ、ローカル環境で高度なコード生成と実行が可能なエージェント AI の実用性をさらに高める重要な一歩です。特に多言語対応の強化は、グローバルな開発現場におけるローカル LLM の採用障壁を下げる要因となるでしょう。
編集コメント
ローカル環境での実用性を追求したモデルの進化は、開発者にとって非常に魅力的なニュースです。特に SWE-bench Multilingual での数値改善は、多言語コードベースを持つプロジェクトにおけるローカル AI の信頼性を高める示唆に富む結果と言えます。
本日、Laguna XS のアップグレード版である Laguna XS 2.1 をリリースいたします。
Laguna XS 2.1 は、ローカルマシンでのエージェント型コーディングおよび長期ホライズンタスクに設計された、総パラメータ数 33B でトークンあたり活性化パラメータ数が 3B の Mixture-of-Experts モデル(MoE)です。アーキテクチャは XS.2 と同じですが、SWE-bench Multilingual における顕著な改善と、ターミナルスタイルのタスクでのより強力なパフォーマンスが特徴です。
XS 2.1 vs XS.2
XS 2.1 は、エージェント型コーディングベンチマークの主要分野において XS.2 を上回っています。最も大きな進歩は SWE-bench Multilingual で、5.4 ポイント上昇し 63.1% に達しました。
- Laguna XS 2.1 33B-A3B
- Laguna XS.2 33B-A3B
- Qwen3.6 35B-A3B
- North Mini Code (Cohere) 30B
- MAI-Code-1-Flash 137B
- gpt-oss-120b 120B
- Claude Haiku 4.5 -
- GPT-5.4 Nano -
SWE-bench Verified の解決タスク数(SWE-bench Verified ベンチマーク)。
SWE-bench Multilingual の解決タスク数(SWE-bench Multilingual ベンチマーク)。
SWE-Bench Pro の解決タスク数(SWE-Bench Pro ベンチマーク)。
Terminal-Bench 2.0 の解決タスク数(Terminal-Bench 2.0 ベンチマーク)。
ベンチマーク結果は 2026 年 7 月 2 日時点 † MoE モデルの相対的な効率性を強調するため、活性化パラメータ数が大きい密型モデルも選択して含めています。
より良いローカル体験
XS 2.1 は vLLM、SGLang、NVIDIA TensorRT-LLM、HF transformers、Ollama でサポートされており、llama.cpp のサポートも近日追加される予定です。また、FP8、INT4、NVFP4 の 3 つの量子化チェックポイントを提供し、VRAM や計算リソースが限られた環境でも XS 2.1 をデプロイできるようにしています。さらに、ネイティブな llama.cpp サポートの一環として、近い将来に量子化された GGUF チェックポイントも提供する予定です。
また、各 XS 2.1 チェックポイントに対応した DFlash スペキュレーターモデルをオープンウェイトで公開します。これらのスペキュレーターモデルは、オーバーヘッドと受容率のバランスを取るために訓練されました。テストでは、これらが達成可能なトークン生成速度(tok/s)を倍増させ、XS 2.1 のローカル推論を以前よりもさらに高速化しています。
当社の API our API および OpenRouter OpenRouter を通じて、256K コンテキスト長でモデルを提供しています。
よりオープンなライセンス
Laguna XS 2.1 は OpenMDW-1.1 ライセンスの下で提供されます。
この変更は、コミュニティにおけるオープンモデルの配布を支援するために行うものです。OpenMDW-1.1 は完全に許可型であり、モデルおよび関連するアーティファクトのために設計されており、開発者や組織に対して、オープンモデルの使用、修正、デプロイにおいてより一貫した枠組みを提供します。
私たちは、OpenMDW において NVIDIA と Linux Foundation が取り組んでいる方向性を支持し、オープンモデルの公開におけるライセンスの摩擦を軽減するための有用な一歩であると信じています。
はじめに
- Hugging Face の Laguna XS 2.1 コレクションから重み(weights)をダウンロードしてください。BF16、FP8、NVFP4、INT4 が利用可能です。
- OpenRouter (poolside/laguna-xs-2.1) または当社の API を通じてモデルを利用できます。無料および有料のエンドポイントが用意されており、有料プランの料金は XS.2 に準拠し、入力/出力/キャッシュ読み取りトークン 1M あたりそれぞれ $0.10 / $0.20 / $0.05 です。
- Ollama、llama.cpp、TRT-LLM、vLLM、SGLang でローカル実行し、より高速な推論のために DFlash ドラフトモデルを追加してください。
- 本モデルとの最適なエージェント体験を得るために、ターミナルベースのコーディングエージェントである pool をインストールしてください。
私たちは、皆さんが XS 2.1 で何を作り出すかを見てみたいと考えており、皆様からのフィードバックも歓迎します。両方のモデルを並べて試し、2.1 がどこで優れているか、またどこで劣っているかを教えてください。Discord に参加して発見したことを共有し、チームに直接話しかけるか、models@poolside.ai までメールを送るか、X でご連絡ください。
*Laguna XS.2 は API 上で 1 週間後にサポートを終了します。XS.2 は Baseten のモデルライブラリの一部として、専用デプロイ向けに引き続き利用可能です。
脚注
Laguna XS 2.1 のすべてのベンチマークは、Laude Institute の Harbor Framework を用いて完了しました。この際、当社の agent harness を使用し、最大ステップ数は 500 とし、サンドボックス内で実行を行いました。Laguna XS 2.1 のベンチマークにはすべて同一のサンプリングパラメータが適用されました:温度 (temperature)=1.0、top_k=20、top_p=1、思考モードを有効化し、コンテキスト長は 256K トークンです。すべてのタスクは各自のサンドボックスで実行され、メモリ 8 GB/CPU 2 コアを使用しました(ただし、Terminal-Bench 2.0 のみ例外として、メモリ 48 GB/CPU 32 コアを使用しました)。
一部のベースとなるタスク画像と検証器 (verifier) は、外部レジストリで使用される第三者依存関係のレート制限など、タスク設定に内在するインフラストラクチャの信頼性問題を修正するためにパッチが適用されました。4 つのすべてのエージェント型ベンチマークは、このようにパッチを当てた画像で実行されました。また、Laguna XS 2.1 の評価ラン後に報酬ハック (reward-hack) を検出する事後審査 (post-hoc judge) を実施しましたが、共同審査と手動レビューの結果、顕著な報酬ハックは見つかりませんでした。
- SWE-bench Verified: 各タスクあたり 4 回の試行における平均 pass@1
- SWE-bench Multilingual: 各タスクあたり 4 回の試行における平均 pass@1
- SWE-Bench Pro: 各タスクあたり 2 回の試行における平均 pass@1
- Terminal-Bench 2.0: 各タスクあたり 5 回の試行における平均 pass@1; 48 GB RAM/32 CPUs
- すべての比較モデルについては、各ベンチマークにおいて公的に参照可能な最高スコアを使用しました。すべてのケースでこれらはリリースブログ投稿または同等の場所で公式に発表されたスコアですが、gpt-oss-120b と Claude Haiku 4.5 の場合は例外であり、SWE-Bench Pro および Terminal-Bench 2.0 における最高スコア(検証済み)はそれぞれ公式リーダーボードからのものです。
原文を表示
Today we're releasing Laguna XS 2.1, an upgraded version of our Laguna XS.2 model.
Laguna XS 2.1 is a 33B total parameter Mixture-of-Experts model with 3B activated parameters per token, designed for agentic coding and long-horizon work on a local machine. It's the same architecture as XS.2, with a notable improvement on SWE-bench Multilingual and stronger performance on terminal-style tasks.
XS 2.1 vs XS.2
XS 2.1 improves upon XS.2 across a key field of agentic coding benchmarks. The largest move is on SWE-bench Multilingual, up 5.4 points to 63.1%.
- Laguna XS 2.1 33B-A3B
- Laguna XS.2 33B-A3B
- Qwen3.6 35B-A3B
- North Mini Code (Cohere) 30B
- MAI-Code-1-Flash 137B
- gpt-oss-120b 120B
- Claude Haiku 4.5 -
- GPT-5.4 Nano -
SWE-bench Verified Resolved tasks on SWE-bench Verified.
SWE-bench Multilingual Resolved tasks on SWE-bench Multilingual.
SWE-Bench Pro Resolved tasks on SWE-Bench Pro.
Terminal-Bench 2.0 Resolved tasks on Terminal-Bench 2.0.
Benchmarks as of 2 July 2026 † We have chosen to include dense models with larger activated parameter counts to highlight the relative efficiency of MoE models.
A better local experience
XS 2.1 is supported in vLLM, SGLang, NVIDIA TensorRT-LLM, HF transformers and Ollama, with llama.cpp support coming soon. We’re also making three quantized checkpoints available—FP8, INT4 & NVFP4—allowing XS 2.1 to be deployed in setups with tighter VRAM & compute budgets. We also intend to make quantized GGUF checkpoints available in the near future as part of our native llama.cpp support.
We’re also open-weighting DFlash speculator models for each XS 2.1 checkpoint. We trained these speculators to balance overhead and acceptance rate. In our tests, these speculator models double the achieved tok/s, making local inference of XS 2.1 even faster than it was before.
We are serving the model at 256K context length on our API and through OpenRouter.
A more open license
We are licensing Laguna XS 2.1 under OpenMDW-1.1.
We are making this change to support open model distribution for the community. OpenMDW-1.1 is fully permissive and designed for models and related artifacts, giving developers and organizations a more consistent framework for using, modifying and deploying open models.
We are glad to support the direction NVIDIA and the Linux Foundation are taking with OpenMDW, and we think this is a useful step toward reducing licensing friction for open model releases.
Get started
- Download the weights from the Laguna XS 2.1 collection on Hugging Face — BF16, FP8, NVFP4, and INT4.
- Use the model on OpenRouter (poolside/laguna-xs-2.1) or via our API. Free and paid endpoints are both available with paid pricing matched to XS.2 at $0.10 / $0.20 / $0.05 per 1M input / output / cache-read tokens.
- Run it locally with Ollama, llama.cpp, TRT-LLM, vLLM, or SGLang, and add the DFlash draft model for faster inference.
- Install pool, our terminal-based coding agent, for the best agent experience with the model.
We want to see what people build with XS 2.1, and we want your feedback. Try both models side by side and tell us where 2.1 is better and where it isn't. Join our Discord to share what you find and talk to the team directly, or reach us at models@poolside.ai or on X.
*Laguna XS.2 will sunset on our API after 1 week. XS.2 will remain available as part of Baseten’s Model Library for dedicated deployments.*
Footnotes
All benchmarking for Laguna XS 2.1 was completed using Laude Institute’s Harbor Framework with our agent harness, with a maximum of 500 steps and sandboxed execution. The same sampling parameters were used for all Laguna XS 2.1 benchmarking: temperature=1.0, top_k=20 and top_p=1, with thinking mode enabled and a context length of 256K tokens. All tasks were run in their own sandbox using 8 GB RAM/2 CPUs, with the exception of Terminal-Bench 2.0, which used 48 GB RAM/32 CPUs.
Some base task images and verifiers were patched to fix infrastructure reliability issues inherent in task setup, such as rate limits on third-party dependencies in external registries used by the verifier. All four agentic benchmarks were run with patched images. We also ran a reward-hack judge post-hoc on Laguna XS 2.1 evaluation runs and did not find significant reward hacking after joint judge review and manual review.
- SWE-bench Verified: mean pass@1 averaged over 4 attempts per task
- SWE-bench Multilingual: mean pass@1 averaged over 4 attempts per task
- SWE-Bench Pro: mean pass@1 averaged over 2 attempts per task
- Terminal-Bench 2.0: mean pass@1 averaged over 5 attempts per task; 48 GB RAM/32 CPUs
- We used the highest publicly-referenced scores for all comparison models across each benchmark. In all cases these were official scores published in release blog posts or equivalent, with the exception of gpt-oss-120b and Claude Haiku 4.5 where the highest published (verified) scores for SWE-Bench Pro and Terminal-Bench 2.0 are from their respective official leaderboards.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み