AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
TLDR AI·2026年4月29日 09:00·約24分

Laguna XS.2 と M.1:詳細解説(20 分読了)

#Laguna XS.2#アジェンティック AI#オープンソースモデル#コード生成#Poolside
TL;DR

Poolside が長期間のコーディングタスクに特化したアジェンティックモデル「Laguna XS.2」と「M.1」を公開し、特に XS.2 の重みが Apache 2.0 ライセンスでオープンソース化された。

AI深層分析2026年4月29日 23:06
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

長期間タスク対応の新型アジェンティックモデル

Laguna M.1 を基盤とし、長時間にわたる複雑なコーディング作業を処理するために設計された「Laguna XS.2」と「M.1」が発表された。

2

小型ながら高性能な XS.2 の実装

サイズは小さいものの、その能力は驚異的であり、リソース制約のある環境でも高いパフォーマンスを発揮するモデルとして位置付けられている。

3

Apache 2.0 ライセンスによるオープン化

Laguna XS.2 の重みが Apache 2.0 ライセンスの下で公開され、開発者が自由に利用・改変できる環境が整った。

4

API を通じた即時利用の開始

Poolside の API および OpenRouter を介して、限定期間無料でこれらのモデルを利用可能となった。

影響分析・編集コメントを表示

影響分析

この発表は、特にリソース効率の高いアジェンティックコーディングモデルの民主化に寄与します。Apache 2.0 ライセンスでの重み公開により、企業や個人が自社のワークフローに合わせてモデルを微調整(ファインチューニング)しやすくなり、長期間にわたる複雑な開発タスクの自動化がさらに加速すると予想されます。

編集コメント

小型モデルが長期間タスクを処理できる能力を持つ点は、エッジデバイスやコスト敏感な環境での AI 活用において極めて重要です。オープンソース化により、生態系全体でのイノベーションが加速するでしょう。

Laguna ファミリー初の 2 つのモデル、Laguna M.1 と Laguna XS.2 をリリースしました。これらは、エージェントのトレーニングと運用に使用するランタイムと共に、プレビュー版として 2 つのプロダクト体験を通じて利用可能です。

Laguna M.1 が先に登場し、昨年末に事前トレーニングを終了しました。これは、ファミリー全体で構築しているすべてのものの基盤です。一方、Laguna XS.2 ははるかに小規模なモデルですが、そのサイズに対して驚くほど高性能であり、これが私たちの初のオープンウェイトリリースとなります。両モデルとも、API を通じておよび OpenRouter 上で、一定期間無料で利用可能です。また、Laguna XS.2 の重み(weights)は Apache 2.0 ライセンスの下で入手できます。

Laguna XS.2 と Laguna M.1 は、長期にわたる作業に対応するように設計されたエージェント型コーディングモデルです。これまで私たちは、最も高いセキュリティ環境への展開が可能な高性能モデルを提供し、政府および公共セクターのクライアントに奉仕することに注力してきました。これらの顧客に対するコミットメントは変わらぬものですが、今や世界と自らの現状を共有する準備が整いました。また、ビルダーやより広範な研究コミュニティをサポートするため、最新世代モデルである Laguna XS.2 の重みをオープンエコシステムへ公開することを嬉しく思います。

私たちは、より高性能なエージェントを実現できるモデルの開発を進めています。その道筋は、コーディング能力と、ますます長期化するタスクを通じてあると考えられています。ソフトウェアの作成こそが、多くの他の能力が発現するための中核となるスキルです。

今日、ほとんどのエージェントはツール呼び出しを通じて世界と対話しており、構造化されたインターフェースによって事前に定義された固定されたアクションセットに制限されています。私たちはこのパターンが過渡的なものだと考えています。ソフトウェアははるかに表現力豊かなインターフェースです。コードの記述と実行ができるエージェントであれば、アクションを組み合わせたり、作業を並列化したり、世界と対話するための独自のアドホックシステムを構築したりできます。

これらのモデルは、アーキテクチャ、データ、事前学習、強化学習にわたる、Applied Research 組織を構成する約 60 人の人々の成果です。この研究成果を世の中に広め、コミュニティが何を作り出すかを見ることを楽しみにしています。

  • Laguna M.1 225B-A23B
  • Laguna XS.2 33B-A3B
  • Qwen3.5 397B-A17B
  • Qwen3.5 35B-A3B
  • Qwen3.6 35B-A3B
  • Claude Sonnet 4.6 -

Laguna M.1 はこれまでにない最も能力の高いモデルであり、昨年末に事前学習を完了しました。これは 2250 億の総パラメータを持つエキスパート混合(MoE: Mixture of Experts)モデルで、活性化されるパラメータは 230 億です。6,144 台の相互接続された NVIDIA Hopper GPU を使用し、30 トリリオンのトークンに対して完全に社内開発かつゼロからトレーニングされました。Laguna M.1 は SWE-bench Pro で 46.9%、Terminal-Bench 2.0 で 40.7% のスコアを達成しています。

  • Laguna M.1 225B-A23B
  • Devstral 2 123B dense†
  • GLM-4.7 355B-A32B
  • DeepSeek-V4-Flash 284B-A13B
  • Qwen3.5 397B-A17B
  • Claude Sonnet 4.6 -

*† モデルの相対的な効率性を強調するため、活性化パラメータ数がより大きい密型モデル(dense models)も含めることを選択しました。*

Laguna XS.2 は、私たちが Laguna M.1 のトレーニングを通じてデータ(合成データを含む)や RL について学んだすべての知見を基に構築された、第 2 世代の MoE モデルであり、最初のオープンウェイトモデルです。総パラメータ数は 33B で、アクティブ化されるのは 3B(トレーニング済みトークンは 30T)ですが、その重みクラスにおいて非常に能力の高いオープンウェイトのエージェントコーディングモデルとして、SWE-bench Pro で44.5%、Terminal-Bench 2.0 で30.1%という結果を達成しています。重みは今日から Apache 2.0 ライセンスの下でダウンロード可能です。

  • Laguna XS.2 33B-A3B
  • Devstral Small 2 24B dense†
  • Gemma 4* 31B dense†
  • Qwen3.5 35B-A3B
  • Qwen3.6 35B-A3B
  • Claude Haiku 4.5* -
  • GPT-5.4 Nano -

*† モデルとエージェントの間のギャップが縮まるにつれ、両者は一体として認識され使用されるべきだと考えており、その相対的な効率性を強調するために、アクティブ化パラメータ数がより大きい密型モデル(dense models)を含めることを選択しました。

私たちのエージェントハネスは、Agent Client Protocol (ACP) サーバーであり、これはエージェント RL のトレーニングと評価に使用するのと同じ基盤です。私たちは、モデルとエージェントがその間のギャップを埋めながら一体として認識され使用されるべきだと信じているため、このサーバーをモデルと共に公開します。

Laguna M.1 (225B-A23B)

Devstral 2 (123B dense)

GLM-4.7 (355B-A32B)

DeepSeek-V4-Flash (284B-A13B)

Qwen3.5 (397B-A17B)

Claude Sonnet 4.6 (-)

SWE-bench Verified

72.5

72.2

73.8

79.0

76.2

79.6

SWE-bench Multilingual

67.3

61.3

66.7

73.3

69.3

-

SWE-bench Pro

46.9

-

-

52.6

50.9

-

Terminal-Bench 2.0

40.7

32.6

41.0

56.9

52.5

59.1

Laguna XS.2 (33B-A3B)

Devstral Small 2 (24B dense)

Gemma 4 (31B dense)

Qwen3.5 (35B-A3B)

Qwen3.6 (35B-A3B)

Claude Haiku 4.5 (-)

GPT-5.4 Nano (-)

SWE-bench Verified

68.2

68.0

52.0

69.2

73.4

73.3

-

SWE-bench Multilingual

62.4

55.7

51.7

60.3

67.2

-

-

SWE-bench Pro

44.5

-

35.7

44.6

49.5

39.5

52.4

Terminal-Bench 2.0

30.1

22.5

42.9

40.5

51.5

29.8

46.3

脚注:Laguna M.1 および Laguna XS.2 のすべてのベンチマークは、Laude Institute の Harbor Framework を用いて完了しました。エージェント・ハーネス agent harness を使用し、最大 500 ステップまで実行し、8 GB RAM/2 CPU でサンドボックス化された環境で実行しました(Terminal-Bench 2.0 は除く;以下参照)。両モデルおよびすべてのベンチマークにおいて、同じサンプリングパラメータが使用されました:温度 (temperature)=0.7、top_k=20。

一部のベースタスク画像と検証器は、検証器で使用される外部レジストリ内のサードパーティ依存関係に対するレート制限など、タスク設定に内在するインフラストラクチャの信頼性問題を修正するためにパッチが適用されました。これらの更新およびその他の発見に関する詳細は、今後の技術ブログ記事で発表されます。

  • SWE-bench Pro:3 回のランにわたる平均 pass@1。
  • SWE-bench Verified:4 回のランにわたる平均 pass@1。
  • SWE-bench Multilingual:7 回のランにわたる平均 pass@1。
  • Terminal-Bench 2.0:5 回のランにわたる平均 pass@1。48GB RAM/32 CPUs。
  • 各ベンチマークにおけるすべての比較モデルについては、公的に参照可能な最高スコアを使用しました。いずれの場合も公式リリースブログ投稿または同等の場所で発表された公式スコアですが、Gemma 4 31B IT の場合は最高スコアが Qwen チームによって報告されており、Claude Haiku 4.5 の場合は SWE-bench Pro および Terminal-Bench 2.0 における最高スコア(検証済み)がそれぞれの公式リーダーボードからのものです。

オープンウェイトモデル

Laguna XS.2 は、私たちが初めて公開するオープンウェイトモデルです。これまで私たちは、オンプレミスやエアギャップされた展開といったセキュリティ要件により、最先端モデルの提供が極めて困難かつ重要な課題となっている公共部門向けに構築することに注力してきました。この取り組みは継続しており、私たちの活動の中核であり続けます。

同時に、西側諸国には強力なオープンウェイトモデルが必要であると信じており、そのエコシステムへの貢献を望んでいます。私たちがモデルを改善するための最速の方法は、世界の人々とともに構築・評価を進めることであり、今後とも私たちを頼りにして貢献してほしいと考えています。

基盤モデルの最もエキサイティングな応用は、能力のある出発点の上に構築する人々から生まれます。ファインチューニング、量子化、あるいはサービス提供を行いたい場合、重みはあなたのものです。Laguna XS.2-base はまもなくリリースされます。

  • OpenRouter
  • Ollama

近日公開予定

今後数週間で、パートナーおよびコミュニティの支援を得て、Laguna XS.2 をより多くの主要フレームワークに導入していきます。

NVIDIA との連携

データのカレーションや事前学習からポストトレーニングに至るまで、Laguna シリーズのすべての側面は NVIDIA ハードウェア上で実施されました。さらに、Laguna XS.2 は Day 1 から NVIDIA TensorRT-LLM でサポートされています。また、Laguna XS.2 の NVFP4 バージョンも提供しており、NVIDIA Blackwell アーキテクチャ上で強力なパフォーマンスを発揮できることを期待できます。

モデル構築

当社はすべてのモデルをゼロからトレーニングしています。つまり、独自のデータ作業、独自のトレーニングコードベース(Titan。これは こちら のブログ記事で取り上げています)、そして独自のエージェント RL インフラストラクチャを意味します。Laguna はこのスタックの限界を押し広げました。特に 3 つの領域においてです:合成データを含むデータパイプライン、Muon オプティマイザの効率を最適化する方法、そして非同期オンポリシー RL スキームです。

データと自動ミキシング

Laguna M.1 と XS.2 の両方は、30 トリリオントークン以上でトレーニングされました。この規模に到達し、トレーニングで効果的に活用するには、データ生成、処理、カレーション、そしてミキシングの限界を押し広げる必要がありました。

大規模ウェブデータ

私たちは、データのセットを構築しキュレーションする際に細心の注意を払っています。ウェブデータのキュレーションは、品質と多様性の双方の最適化として捉えています。品質は連続的な多次元信号としてモデル化され、スタック全体にわたってモデルを活用して品質信号を取得し、複合スコアを用いてデータをランク付けしています。重要なのは、最高品質のデータだけを保持しないことです。私たちは、このアプローチが STEM(科学・技術・工学・数学)や推論能力に偏っていることを発見しました。そのため、一般化に不可欠な多様性を維持するために、中程度および低品質のバケットの一部も保持しています。

短いトークン範囲に最適化された精度重視のパイプラインと比較すると、このアプローチは性能を維持しつつ、ユニークなトークンの数を約 2 倍に増やします。この効果は、より長いトレーニング範囲にスケールしても持続し、品質と同様に多様性の重要性を浮き彫りにしています。

また、詳細な重複排除分析を実施し、FineWeb の仮説である「グローバルな重複排除が過剰に高品質データを除去する」という点を確認しました。グローバル重複排除とスナップショット重複排除の間の品質分布を一致させることで、下流タスクのパフォーマンスにおける格差をさらに縮小することが可能となりました。

合成データ

自然なウェブデータを補完するために、制御が難しい次元においてトレーニングミックスを強化するため、合成データを使用しています。Laguna XS.2 では、すべての事前学習段階を通じて最終的なトレーニングミックスの約 13% を占め、有機データを置き換えるのではなくそれを基盤として、不足している部分を拡張する形で貢献しています。Laguna シリーズでは、約 4.4T+ の合成トークンを使用しています。

事前学習スケールにおける多様性と妥当性を維持するため、私たちのアプローチは、シード依存型とパイプライン依存型の生成の間のスペクトラムにわたっています。シード依存型の端では、コンテンツを Q&A、構造化リスト、対話など様々なフォーマット間で再構成し、情報の提示方法を正規化することで、モデルが貴重なアーティファクトを複数の角度から認識できるようにしています。一方、パイプライン依存型の端では、特徴抽出と再構成へと進み、暗黙的な推論、構造、および関係性を浮き彫りにして、それらを新しい形式や文脈で学習させます。

また、合成データの生成を狭く高信号のドメインに限定するのではなく拡張しています。STEM(科学・技術・工学・数学)やコード分野に加え、これらのパイプラインをより広範なデータミックス全体に適用し、カバレッジを広げつつも高い grounded signal density(確かな信号密度)を維持します。

私たちのアプローチは、より大きなトレーニングエコシステム内に統合されるように設計されており、堅牢性に焦点を当て、合成データが学習の初期段階から一貫して貢献できるようになっています。

AutoMixer: データ混合の最適化

データのカレーションとトレーニングに組み込まれる混合比率は、最終的なモデルのパフォーマンスに極めて大きな影響を与えます。私たちは、事前学習データの混合を体系的に探索し最適化するための自動混合(AutoMix)フレームワークを開発しました。手動のヒューリスティクスに頼るのではなく、この自動混合器の実行ごとに、約 60 の十分に大規模なプロキシモデル(代理モデル)のスウォームを訓練し、それぞれ異なるデータ混合で学習させます。そして、コード、数学、STEM(科学・技術・工学・数学)、常識といった主要な能力グループ全体にわたってパフォーマンスを測定します。これらの実行結果から、データセットの比率の変化が下流の評価にどのように影響するかを近似する代理回帰モデル(surrogate regressors)を構築します。これにより、データ混合からパフォーマンスへの学習されたマッピングが得られ、これを直接最適化することで改善された混合比率を提案することが可能になります。このアプローチは、Olmix、MDE、RegMix などの最近の研究に着想を得たものですが、より豊かなデータグループ分類と、限られた代理モデルの予算に合わせて強固な事前知識(strong prior)の周りで制御された探索を行うよう、私たちの設定に適応させています。

学習されたシグナルは直感的であり、かつ情報量に富んでいます。コードのパフォーマンスは合成およびキュレーションされたコードソースによって強く駆動される一方、一般的なウェブデータはそれを損なう傾向があります。数学のパフォーマンスは主に多様なウェブ上の数学データから恩恵を受けます。STEM 知識は学術的・教育的テキストと相関しています。重要なのは、回帰分析がこれらの期待される関係を回復しつつも、個々のサブセットがどのように寄与するかというより微細な視点を提供し、より精密なトレードオフを可能にすることです。自明な解(例えば、単一の高シグナルソースへの過度な依存)を避けるため、最適化はベースライン混合に対して正則化され、ターゲットの反復率もシミュレーションされます。

これを大幅に大規模なモデルとより長いトレーニング期間にスケールした場合、最適化されたミックスは、一連の独立したかつコストのかかるアブレーションを通じて得られた強力な事前ベースラインと比較して、特にコードと数学における標的機能において実質的な向上をもたらしました。また、保持されたベンチマークへの一般化能力を損なうことなくです。

Muon

Laguna XS.2 および Laguna M.1 のすべてのトレーニング段階を通じて、私たちは内部の分散実装である Muon オプティマイザー(Muon optimizer)を使用しました。初期の前学習アブレーションにおいて、AdamW ベースラインと同等のトレーニング損失を約 15% 少ないステップ数で達成でき、最終モデルにおける絶対的な評価向上も得られました。さらに、モデルスケール間での学習率転送も実現できました。

多くの他のオプティマイザーと比較して、Muon は計算オーバーヘッドを大幅に生成しますが、これはランク間での計算の分散によって対処しています。高レベルでは、Muon は勾配をモーメンタムバッファに集約し、Nesterov モーメンタム(Nesterov momentum)を勾配に適用し、Newton-Schulz 法(Newton-Schulz method)を通じて勾配の直交化を行い、直交化された勾配でパラメータを更新する必要があります。単純な実装では、各ランクがすべての全パラメータに対してこれを行う必要があります。私たちの実装では、シャード化されている各パラメータと勾配をそのシャードを担当する単一のランクに割り当て、そのランク上で全パラメータと勾配を集約し、Newton-Schulz 法を実行した後、対応する直交化された勾配のシャードをグループ内の他のすべてのランクへ再分配します。その後、各ランクはローカルなパラメータシャードを更新します。これにより、追加の通信コストがかかるという代償を払うことで、Muon オプティマイザーの計算ボトルネックが効果的に解消されます。

実装では、バッチ通信と Newton-Schulz 計算を重畳させています。Muon の追加の利点は、AdamW に比べてメモリ要件が低いことです。これはパラメータあたり状態が 2 つではなく 1 つで済むためであり、チェックポイントの保存および読み込みにおいても同様に有益です。また、正則化手順において多数の比較的小さなカーネルを起動する際の CPU オーバーヘッドを削減するため、Newton-Schulz 手順に対して CUDA グラフ(CUDA Graphs)の有効化もサポートしています。これは主に小規模モデルにとって有益です。上記の工夫により、Laguna M.1 の事前学習中、オプティマイザに起因するオーバーヘッドはトレーニングステップ時間の 1% 未満となりました。

更新と計算はモデルレプリカ(すなわち DDP ランク)間で複製されるため、すべてのレプリカが正確に同一の重みを持っていることを確認するために、モデル重みに対する定期的なハッシュチェックを実装しています。これらのチェックは主に、欠陥のある GPU に起因するサイレントデータ破損(SDC: Silent Data Corruption)を検出します。具体的には、DRAM や SRAM には ECC 保護が適用されているのに対し、演算論理回路やパイプラインレジスタに起因するエラーを対象とします。ハッシュチェックはまた、分散トレーニング実装の正しさも検証し、データ競合(data races)、集合通信バグ、およびレプリカ間の乖離から保護します。

エージェント RL

長期にわたるエージェントタスクにおいてモデルを卓越させるために、トレーニングループ内でエージェントハネスを利用した完全非同期のオンライン RL システムを構築しました。このシステムは、現実的なエンドツーエンドのソフトウェアエンジニアリング、ターミナル操作、およびツール統合推論タスクの大規模なセット上で実行されます。

当社の RL スタックは、推論とロールアウト生成の主要コンポーネントを緩く結合し、コード実行サンドボックスのオーケストレーション、トラジェクトリのスコアリング、バッファリング・フィルタリング、そして分散トレーニングを統合した独自に構築されたシステムです。

高レベルでは、ループの 1 サイクルは以下のようになります。トレーナーが新しいチェックポイントを公開し、それが推論クラスターへデプロイされます。アクタープロセスはデータセットからタスクを取得し、サンドボックス化されたコンテナを起動して、 freshly デプロイされたモデルを使用して各タスクに対して本番環境のエージェントバイナリを実行します。生成されたトラジェクトリ(経路)はスコアリングされ、フィルタリングされて Iceberg テーブルに書き込まれます。トレーナーはこれらのレコードを継続的に消費し、次のチェックポイントを生成します。推論とトレーニングは非同期で並列して実行され、オフポリシーの鮮度とのバランスを取るためにスループットが調整されています。このモジュラーアプローチにより、各コンポーネントに対して迅速に反復開発が可能となり、新しいアイデアを実験するためにコンポーネントを容易に交換できます。

長期ホライズンのタスクに対する非同期ロールアウト

現実的なソフトウェアエンジニアリングのタスクは、ファイルの読み込み、テストの実行、パッチへの反復適用、スイート再実行など、非常に多くのツール呼び出しを長い時間枠にわたって含むことがあります。もしトレーナーがステップを取る前に完全なバッチの軌道(トラジェクトリ)を待たなければならないとすれば、GPU は壁時計時間の大部分でアイドル状態となり、長期の軌道は体系的に過小評価されることになります。

私たちは完全に非同期の設定を採用しています。アクターとトレーナーは独立して実行され、ロールアウトが現在のポリシーからどれだけ遅れてもよいかを明示的にゲート制御するキューバッファを軌道が通過します。アクターは最新のチェックポイントに対して継続的にデータを生成します。トレーナーは設定可能なパラメータで最大オフポリシー性を制御しながら、自身のペースでレコードを引き出します。

トレーナーと推論の間でチェックポイントを同期させるために、GPUDirect RDMA 上のカスタム重み転送スキームを開発しました。これにより、数秒間で数百ギガバイトの重みを転送することが可能になります。Laguna M.1 では、トレーニングと推論間のノード間で BF16 形式の重みを 5 秒以内で転送できます。

長いロールアウトの間、トレーニングはすでに新しいチェックポイントに進んでいることが一般的です。そのような場合、スループットを最適化し、実行中の推論リクエストを中断せずに推論モデルを更新します。さらにスループットを最適化するために、推論ではトレーニングが BF16 の場合でも、モデルの重みと KV キャッシュを FP8 で実行することをサポートしています。与えられたエージェントからのすべてのリクエストを同じ推論レプリカにルーティングすることで、ターン全体にわたる KV キャッシュの再利用を可能にします。

オフポリシー RL を用いたトレーニングの安定性

スケーラビリティとスループットのために RL パイプラインを最適化しており、これによりある程度のオフポリシー性が生じます。オフポリシー性の要因はいくつかあります:古くなったモデルパラメータ、非決定性のカーネル、および推論とトレーニング間の数値精度の不一致です。特に古くなることは設計上の意図によるものです。推論モデルとトレーニングモデルの間のトレーニングステップのギャップは、データの鮮度とシステムのスループットのバランスを取るために経験的に調整されています。

オフポリシー性を引き起こす一般的な問題として、ロールアウト生成からトレーニングへデータが接続される方法があります。単純な実装ではデータの再トークン化が発生し、トークン表現の不整合を引き起こす可能性があります。代わりに、当社のアクターは「トークン入力、トークン出力」方式で設計されており、トジェクト全体における複数のエージェントターンを通じてトークン ID が保持されます。

オフポリシーのレジームにおいて安定して学習を行うために、CISPO アルゴリズムの変種を使用しています。当社の強化学習(RL)は、エントロピー正則化などの追加的な安定化技術なしに、多くの日のトレーニングを通じて安定した実行と継続的なパフォーマンス向上を維持します。

Laguna XS.2 モデルに関する技術報告書は現在開発中です。モデル構築に対する当社のアプローチについては、Model Factory シリーズをご覧ください。

始め方

Laguna M.1 と Laguna XS.2 は、期間限定で無料でご利用いただけます。これらのモデルとともに、エージェントの強化学習(RL)トレーニングおよび評価に内部で使用している環境である「pool」というエージェントハネスを研究プレビューとして公開します。

ソフトウェアが将来どのように構築されるかという当社のビジョンである Shimmer に直接アクセスするか、pool をダウンロードしてください。また、OpenRouter でもご利用を開始できます。

そして、スタートアップ、機関、または大学でモデルを構築されている場合は、リクエストに応じてより高いレート制限をサポートしたり、Laguna M.1 の重みへのアクセスを提供したりすることを喜んでおります。models@poolside.ai までご連絡いただくか、X で DM をお送りください。

原文を表示

We’ve released the first two models in the Laguna family, Laguna M.1 and Laguna XS.2, alongside the runtime we use to train and operate agents, available through two product experiences in preview.

Laguna M.1 came first, finishing pre-training at the end of last year; it's the foundation for everything else we're building across the family. Laguna XS.2 is a much smaller model, but remarkably capable for its size, and it's our first open-weight release. Both models are free to use for a limited time via our API and on OpenRouter, and Laguna XS.2 weights are also available under an Apache 2.0 license.

Laguna XS.2 and Laguna M.1 are agentic coding models built for long-horizon work. To date, we’ve been focused on serving our government and public sector clients with capable models deployable into the highest-security environments. And while our commitment to these customers remains, we’re now ready to share where we are with the world. We’re also excited to release the weights of Laguna XS.2, our newest generation model, to the open ecosystem to support builders and the wider research community.

We're working toward models that enable more capable agents; and we believe the path runs through coding capability and increasingly long-horizon tasks. Creating software is the core skill through which many other capabilities get expressed.

Today, most agents interact with the world through tool calling, where structured interfaces restrict agents to a fixed set of actions defined in advance. We think this is a transitional pattern. Software is a much more expressive interface. An agent that can write and execute code can compose actions, parallelize work, and build its own ad-hoc systems to interact with the world.

These models are the work of the roughly 60 people who make up our Applied Research organization, across architecture, data, pre-training, and reinforcement learning. We're excited to bring this work into the world and see what the community builds with it.

  • Laguna M.1 225B-A23B
  • Laguna XS.2 33B-A3B
  • Qwen3.5 397B-A17B
  • Qwen3.5 35B-A3B
  • Qwen3.6 35B-A3B
  • Claude Sonnet 4.6 -

Laguna M.1 is our most capable model to date and completed pre-training at the end of last year. It's a 225B total parameter Mixture of Experts (MoE) model with 23B activated parameters, trained completely in-house and from scratch on 30T tokens, using 6,144 interconnected NVIDIA Hopper GPUs. Laguna M.1 reaches 46.9% on SWE-bench Pro and 40.7% on Terminal-Bench 2.0.

  • Laguna M.1 225B-A23B
  • Devstral 2 123B dense†
  • GLM-4.7 355B-A32B
  • DeepSeek-V4-Flash 284B-A13B
  • Qwen3.5 397B-A17B
  • Claude Sonnet 4.6 -

*† We have chosen to include dense models with larger activated parameter counts to highlight the relative efficiency of MoE models.*

Laguna XS.2 is our second-generation MoE and our first open-weight model, built on everything we've learned since training Laguna M.1 across data, including synthetic, and RL. At 33B total parameters with 3B activated (30T tokens trained), it's a highly capable open-weight agentic coding model in its weight class, reaching 44.5% on SWE-bench Pro and 30.1% on Terminal-Bench 2.0. The weights are available for download today under Apache 2.0.

  • Laguna XS.2 33B-A3B
  • Devstral Small 2 24B dense†
  • Gemma 4* 31B dense†
  • Qwen3.5 35B-A3B
  • Qwen3.6 35B-A3B
  • Claude Haiku 4.5* -
  • GPT-5.4 Nano -

*† We have chosen to include dense models with larger activated parameter counts to highlight the relative efficiency of MoE models.*

Our agent harness, an Agent Client Protocol (ACP) server, is the same carrier we use for agent RL training and evaluation. We're releasing it alongside the models because we believe models and agents should be seen and used together as the gap between them closes.

Laguna M.1 (225B-A23B)

Devstral 2 (123B dense)

GLM-4.7 (355B-A32B)

DeepSeek-V4-Flash (284B-A13B)

Qwen3.5 (397B-A17B)

Claude Sonnet 4.6 (-)

SWE-bench Verified

72.5

72.2

73.8

79.0

76.2

79.6

SWE-bench Multilingual

67.3

61.3

66.7

73.3

69.3

-

SWE-bench Pro

46.9

-

-

52.6

50.9

-

Terminal-Bench 2.0

40.7

32.6

41.0

56.9

52.5

59.1

Laguna XS.2 (33B-A3B)

Devstral Small 2 (24B dense)

Gemma 4 (31B dense)

Qwen3.5 (35B-A3B)

Qwen3.6 (35B-A3B)

Claude Haiku 4.5 (-)

GPT-5.4 Nano (-)

SWE-bench Verified

68.2

68.0

52.0

69.2

73.4

73.3

-

SWE-bench Multilingual

62.4

55.7

51.7

60.3

67.2

-

-

SWE-bench Pro

44.5

-

35.7

44.6

49.5

39.5

52.4

Terminal-Bench 2.0

30.1

22.5

42.9

40.5

51.5

29.8

46.3

Footnotes: All benchmarking for Laguna M.1 and Laguna XS.2 was completed using the Laude Institute's Harbor Framework with our agent harness, using a maximum of 500 steps and sandboxed execution using 8 GB RAM/2 CPUs (with the exception of Terminal-Bench 2.0; see below). The same sampling parameters were used across both models and for all benchmarking: temperature=0.7 and top_k=20.

Some base task images and verifiers were patched to fix infrastructure reliability issues inherent in task setup, such as rate limits on third-party dependencies in external registries used by the verifier. More details outlining these updates and other findings will follow in a future technical blog post.

  • SWE-bench Pro: mean pass@1 averaged over 3 runs.
  • SWE-bench Verified: mean pass@1 averaged over 4 runs.
  • SWE-bench Multilingual: mean pass@1 averaged over 7 runs.
  • Terminal-Bench 2.0: mean pass@1 averaged over 5 runs. 48GB RAM/32 CPUs.
  • We used the highest publicly-referenced scores for all comparison models across each benchmark. In all cases these were official scores published in release blog posts or equivalent, with the exception of Gemma 4 31B IT where the highest published scores were reported by the Qwen team, and Claude Haiku 4.5 where the highest published (verified) scores for SWE-bench Pro and Terminal-Bench 2.0 are from their respective official leaderboards.

Open weights

Laguna XS.2 is our first open-weight model. Until now, we've been focused on building for the public sector, where security requirements like on-prem and air-gapped deployments make shipping frontier models a uniquely hard but important problem. That work continues and remains core to what we do.

At the same time, we believe the West needs strong open-weight models, and we want to contribute to that ecosystem. The fastest way for us to improve our models is to bring the world along in building and evaluating them, and we want people to know they can look to us to contribute going forward.

The most exciting applications of foundation models come from people building on top of capable starting points. If you want to fine-tune, quantize, or serve, the weights are yours. We will release Laguna XS.2-base soon.

  • OpenRouter
  • Ollama

Coming soon

We're bringing Laguna XS.2 to more leading frameworks in the coming weeks, with the help of our partners and the community.

Working with NVIDIA

Every aspect of our Laguna series, from data curation and pre-training through post-training, was conducted on NVIDIA hardware. Additionally, Laguna XS.2 is supported in NVIDIA TensorRT-LLM on Day 1. We're also providing an NVFP4 version of Laguna XS.2, so you can expect strong performance on NVIDIA Blackwell architecture.

Model building

We train all our models from scratch. That means our own data work, our own training codebase (Titan, which we cover in this blog post), and our own agent RL infrastructure. Laguna pushed the limits of that stack, particularly across three domains: our data pipeline including synthetic data, how we optimized the efficiency of the Muon optimizer, and our async on-policy RL scheme.

Data and automixing

Both Laguna M.1 and XS.2 were trained on more than 30T tokens. Reaching that scale, and using it productively in training, required pushing the limits of data generation, processing, curation, and mixing.

Large-scale web data

We take great care in building and curating our datasets. We treat web data curation as a joint optimization of quality and diversity. We model quality as a continuous, multi-dimensional signal and rank data using a composite score, using models heavily across the stack for quality signals. Crucially, we don't only keep top-quality data. We found it to be biased toward STEM and reasoning, so we retain portions of mid- and lower-quality buckets to preserve diversity, which is critical for generalization.

Compared to precision-focused pipelines optimized for short token horizons, this approach yields ~2× more unique tokens while maintaining performance. The gain persists when scaling to longer training horizons, which highlights the importance of diversity alongside quality.

We also conducted a detailed deduplication analysis and confirmed FineWeb's hypothesis that global deduplication disproportionately removes high-quality data. By matching the quality distribution between global and snapshot deduplication, we could further close the gap on downstream performance.

Synthetic data

To round out natural web data, we use synthetic data to complement the training mix along dimensions that are otherwise hard to control. In Laguna XS.2, it contributes about 13% of the final training mix throughout all pre-training stages, building on organic data rather than replacing it, and expanding where it falls short. The Laguna series uses approx. 4.4T+ synthetic tokens.

To preserve diversity and validity at pre-training scale, our work spans a spectrum between seed-heavy and pipeline-heavy generation. At the seed-heavy end, we reshape content across formats (Q&A, structured lists, dialogue, and so on) to regularize how information is presented, so the model sees valuable artifacts through multiple angles. At the pipeline-heavy end, we move into feature extraction and recomposition, surfacing implicit reasoning, structure, and relationships, and teaching them in new forms and contexts.

We also expand synthetic generation beyond narrow, high-signal domains. Alongside STEM and code, we apply these pipelines across the broader data mix, expanding coverage while maintaining high, grounded signal density.

Our approach is designed to integrate within the larger training ecosystem, focusing on robustness and letting synthetic data contribute earlier and more consistently throughout training.

AutoMixer: data mixture optimization

Data curation and the mix that goes into training is extremely impactful on final model performance. We developed an automixing framework to systematically explore and optimize pre-training data mixtures. Instead of relying on manual heuristics, each run of the automixer trains a swarm of ~60 sufficiently large proxy models, each on a different data mix, and measures performance across key capability groups (code, math, STEM, common sense). From these runs, we fit surrogate regressors that approximate how changes in dataset proportions affect downstream evaluation. That gives us a learned mapping from data mix to performance, which we can directly optimize to propose improved mixtures. The approach is inspired by recent work such as Olmix, MDE, and RegMix, but adapted to our setting with richer data groupings and controlled exploration around a strong prior to fit the tight surrogate budget.

The learned signals are both intuitive and informative. Code performance is strongly driven by synthetic and curated code sources, while general web data tends to hurt it. Math performance benefits primarily from diverse web math data. STEM knowledge correlates with academic and educational text. Importantly, the regression recovers these expected relationships while providing a much more fine-grained view of how individual subsets contribute, enabling more precise trade-offs. To avoid trivial solutions (for example, over-indexing on a single high-signal source), we regularize the optimization toward a baseline mix and simulate target repetition rate.

When scaled to a significantly larger model and longer training horizon, the optimized mix delivered substantial gains on targeted capabilities, particularly code and math, relative to a strong prior baseline obtained through a series of independent and more costly ablations, and without compromising generalization to held-out benchmarks.

Muon

Through all training stages of Laguna XS.2 and Laguna M.1, we used an internal distributed implementation of the Muon optimizer. In our initial pre-training ablations, we were able to achieve the same training loss as an AdamW baseline in ~15% fewer steps, with large absolute evaluation uplifts on the final model, while also achieving learning rate transfer across model scales.

Compared to many other optimizers, Muon creates significant compute overhead that we tackle through distribution of the compute across ranks. At a high level, Muon needs to aggregate the gradients into a momentum buffer, apply Nesterov momentum to the gradients, perform orthogonalization of the gradients via Newton-Schulz, and update the parameters with the orthogonalized gradients. Naively, each rank would need to do this for every full parameter. Our implementation assigns each parameter and gradient to only one of the ranks sharding it, gathers the full parameter and gradient on that rank, performs Newton-Schulz, and redistributes the corresponding orthogonalized gradient shards back to all other ranks within the group, which then update their local parameter shards. That effectively removes the compute bottleneck of the Muon optimizer, at the cost of additional communication.

Our implementation overlaps batched communication with the Newton-Schulz computations. An additional benefit of Muon is its lower memory requirement compared to AdamW, as only one state per parameter is required rather than two; that's equally beneficial for checkpoint saving and loading. We also support enabling CUDA graphs for the Newton-Schulz procedure to reduce the CPU overhead of launching many relatively small kernels in the orthogonalization procedure, which is mainly beneficial for smaller models. Thanks to the above, during pre-training of Laguna M.1, the overhead from the optimizer was less than 1% of the training step time.

As the updates and compute are replicated across model replicas (i.e., DDP ranks), we have periodic hash checks on the model weights in place to assert all replicas hold the exact same weights. These checks primarily catch silent data corruption (SDC) from defective GPUs; specifically, errors originating in arithmetic logic and pipeline registers, which unlike DRAM and SRAM are not covered by ECC protection. Hash checks also verify the correctness of our distributed training implementation, protecting against data races, collective communication bugs, and replica divergence.

Agent RL

To train our models to excel at long-horizon agentic tasks, we built a fully asynchronous online RL system that uses our agentic harness inside the training loop, running across large quantities of realistic end-to-end software engineering, terminal, and tool-integrated reasoning tasks.

Our RL stack is a custom-built system loosely coupling the major components of inference and rollout generation, orchestration of code execution sandboxes, trajectory scoring, buffering and filtering, and distributed training.

At a high level, a single turn of the loop looks like this: the trainer publishes a new checkpoint, which is deployed to our inference cluster. Actor processes pull tasks from a dataset, spin up sandboxed containers, and run our production agent binary against each task using the freshly deployed model. The resulting trajectories are scored, filtered, and written to Iceberg tables. The trainer consumes those records continuously and produces the next checkpoint. Inference and training run asynchronously in parallel, with their throughput tuned to balance off-policy staleness. Our modular approach helps us iterate quickly on each component, and swap components easily to experiment with new ideas.

Asynchronous rollouts for long-horizon tasks

Realistic software engineering tasks can span a very large number of tool calls over long time horizons: reading files, running tests, iterating on a patch, re-running the suite. If the trainer had to wait for a full batch of trajectories before taking a step, the GPUs would sit idle for most of the wall-clock time, and long trajectories would be systematically under-represented.

We use a fully asynchronous setup. Actors and the trainer run independently, and trajectories go through a queue buffer with explicit gating on how far behind the current policy a rollout is allowed to be. Actors continuously generate data against the most recent checkpoint. The trainer pulls records at its own pace, with a configurable parameter to control the maximum off-policyness.

To synchronize checkpoints between trainer and inference, we developed a custom weight transfer scheme over GPUDirect RDMA, which lets us transfer hundreds of gigabytes of weights within seconds. For Laguna M.1, we can transfer BF16 weights within 5s across nodes between training and inference.

During long rollouts, it's common that training has already progressed to a new checkpoint. In those cases, we optimize for throughput and update the inference model without disrupting running inference requests. To further optimize throughput, inference supports running model weights and KV cache in FP8, even when training is on BF16. We route all requests from a given agent to the same inference replica, enabling KV cache reuse across turns.

Training stability with off-policy RL

We optimize our RL pipeline for scale and throughput, which makes training off-policy to some degree. Off-policyness has several sources: stale model parameters, non-deterministic kernels, and even numerical precision mismatch between inference and training. Staleness, in particular, is by design. The gap in training steps between the inference and training models is empirically tuned to balance data freshness and system throughput.

A common issue that can lead to off-policyness is the way data is wired through from rollout generation to training. Naive implementations lead to re-tokenization of data, which can cause a mismatch in token representations. Instead, our actors are designed in a token-in, token-out manner, where token IDs are preserved across multiple agentic turns in the whole trajectory.

To train stably in the off-policy regime, we use a variant of the CISPO algorithm. Our RL runs maintain stability and continued performance improvements over many days of training, without the need for additional stability techniques like entropy regularization.

A technical report on our Laguna XS.2 model is in development. You can learn more about our approach to model building in our Model Factory series.

Get started

Laguna M.1 and Laguna XS.2 are free to use for a limited time. Alongside the models, we're releasing our agent harness, pool, as a research preview. It's the same environment we use internally for agent RL training and evaluation.

Jump straight into Shimmer, our vision of how software will be built in the future, or download pool. You can also get started on OpenRouter.

And if you're building on models at a startup, an institution, or a university, we're happy to support higher rate limits on request or provide access to the weights for Laguna M.1. Get in touch at models@poolside.ai or send us a DM on X.

この記事をシェア

関連記事

Latent Space重要度42026年6月26日 10:12

[AINews] OpenAI、2025年11月以降の内部Codex出力トークン数が研究で56倍、カスタマーサポートで32倍に急増と報告

MarkTechPost重要度42026年6月26日 02:11

DeepReinforce が Ornith-1.0 を公開:自律的に RL スキャフォールドを学習するオープンソースコーディングモデルファミリー

TechCrunch AI重要度42026年6月25日 01:15

Figma が新アップデートでコードレイヤーやアニメーションサポート、さらに AI 機能を追加

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む