Cursor が Composer 2.5 をリリース(7 分読)
Cursor はコード生成 AI「Composer」のバージョン 2.5 をリリースし、長期タスクへの対応力や複雑な指示の遵守能力を大幅に強化しました。
キーポイント
長期タスクと複雑指令への対応強化
Composer 2 は以前より持続的な作業能力が向上し、複雑な指示に従う信頼性が高まっています。
トレーニング手法の刷新
より困難なタスクでの学習、複雑な RL(強化学習)環境の生成、および新しい学習手法の導入により性能が向上しました。
行動特性とコミュニケーションの改善
既存ベンチマークでは捉えきれない「努力の調整」や「コミュニケーションスタイル」を最適化し、実世界での有用性を高めています。
影響分析・編集コメントを表示
影響分析
このアップデートは、AI エディタが単なるコード補完から、複雑なプロジェクト全体を自律的に処理できるパートナーへと進化していることを示しています。特に「努力の調整」や「コミュニケーションスタイル」という人間らしい要素を強化した点は、開発者との協働体験を劇的に向上させ、AI による実務自動化の現実的な適用範囲を広げる可能性があります。
編集コメント
ベンチマークスコアだけでなく、人間の協働者としての振る舞いを最適化した点は、実務導入における重要な転換点と言えます。
Composer 2.5 が Cursor で利用可能になりました。
これは Composer 2 に比べて、知能と振る舞いにおいて大幅な改善が図られたバージョンです。長時間実行されるタスクに対する持続的な作業能力に優れ、複雑な指示をより確実に従うようになり、協働する際の体験もより快適になりました。
image
image
Composer の改良には、トレーニングの規模拡大、より複雑な強化学習(RL: Reinforcement Learning)環境の生成、そして新しい学習手法の導入が含まれています。
Composer 2.5 をより困難なタスクで訓練するだけでなく、コミュニケーションスタイルや努力度の調整といったモデルの振る舞いに関する側面も改善しました。これらの次元は既存の評価指標では十分に捉えられていませんが、実世界での有用性には重要な要素であることが分かりました。
image
image
Composer 2.5 は、Composer 2 と同じオープンソースのチェックポイント Moonshot's Kimi K2.5 を基に構築されています。
image
image
SpaceXAI with SpaceXAI と共同で、総計算リソースを 10 倍増やし、ゼロから大幅に大規模なモデルのトレーニングを行っています。Colossus 2 の 100 万 H100 相当の計算能力と、私たちが持つ統合されたデータおよびトレーニング手法により、モデルの能力における大きな飛躍が期待されます。
Composer 2.5 のトレーニング
Composer 2.5 には、トレーニングスタックに関するいくつかの新規改善点が含まれています。これらの変更は、モデルの知能性と使いやすさの両方を対象としています。
テキストフィードバックによるターゲット型 RL
ロールアウトが数十万トークンに及ぶようになると、強化学習におけるクレジット割り当てはますます困難な課題となっています。報酬がロールアウト全体に対して計算される場合、モデルがどの特定の決定が結果を改善し、あるいは悪化させたのかを特定するのは難しくなります。これは、特定のツール呼び出しの失敗や混乱を招く説明、スタイル違反といった局所的な行動を抑制したい場合に特に制限要因となります。最終的な報酬は「何かが間違っていた」ことを示すことはできますが、「どこで」間違えたのかという点についてはノイズの多いシグナルに過ぎません。
これを解決するため、私たちはターゲットとなる軌道上のモデルがより良く振る舞う可能性があった地点で直接フィードバックを提供する形で Composer 2.5 を訓練しました。具体的には、改善を促す短いヒントを記述し、それを局所的な文脈に挿入して、その結果得られるモデル分布を教師として用います。元の文脈を持つポリシーを学生とし、学生のトークン確率を教師の方向へ移動させるオンポリシー蒸留 KL 損失を追加します。これにより、変更したい行動に対する局所的な訓練シグナルを得つつも、軌道全体にわたる広範な強化学習の目的は維持されます。
テキストフィードバックプロセスの一例として、利用可能なツールではないツールの呼び出しを試みた際にツール呼び出しエラーが発生する長いロールアウトを想定してください。ロールアウト中、モデルは「ツールが見つかりません」というエラーを受け取り、追加の有効なツール呼び出しを続けます。数百回のツール呼び出しのプロセスの中で 1 つのエラーに遭遇したという事実は、最終的な報酬にはほとんど影響を与えません。
テキストフィードバックを使用すれば、問題のあるターンにおけるコンテキストに「リマインダー:利用可能なツール…(利用可能なツールのリスト)」といったヒントを挿入することで、この特定のミスを対象とすることができます。このヒントは教師の確率を変化させ、誤ったツールの確率を下げて有効な代替手段の確率を高めます。そのターンに対してのみ、学生モデルの重みを新しい確率方向に更新します。
Composer 2.5 の実行中、この手法はコーディングスタイルからモデル間のコミュニケーションに至るまで、さまざまなモデル行動に対して適用されました。
image
image
合成データ
RL 学習中、Composer のコーディング能力は大幅に向上し、訓練問題のほとんどを正しく解けるレベルに至ります。知能をさらに高めるために、実行中はより困難なタスクを選択・作成する動的アプローチを採用しています。Composer 2.5 は、Composer 2 と比較して合成タスクが 25 倍多く用いられて学習されています。
実コードベースに根ざした合成タスクを作成するため、さまざまな手法を用いています。例えば「機能削除」という合成アプローチがあります。この種のタスクでは、エージェントに多数のテストを含むコードベースを与え、特定のテスト可能な機能を削除しつつもコードベースが機能的に維持されるようにコードやファイルを削除するよう指示します。合成タスクの本質は、その機能を再実装することであり、テストは検証可能な報酬として機能します。
大規模な合成タスク作成の downstream 的な結果として、予期せぬ報酬ハッキングが発生する可能性があります。モデルがより熟練するにつれ、Composer 2.5 は手元のタスクを解決するための次第に洗練された回避策を見つけられるようになりました。ある事例では、モデルが残っていた Python の型チェックキャッシュを発見し、そのフォーマットを逆解析して削除された関数シグネチャを特定しました。別の事例では、Java バイトコードを検出・デコンパイルしてサードパーティ製 API を再構築することに成功しました。これらの問題はエージェント監視ツールを用いて発見・診断できましたが、大規模な RL にはより一層の注意が必要であることを示しています。
image
image
Sharded Muon とデュアルメッシュ HSDP
継続的な事前学習には、分散直交化を備えた Muon を使用します。モーメンタム更新を形成した後、モデルの自然な粒度で Newton-Schulz 法を実行します:注意投影についてはアテンションヘッドごと、スタックされた MoE(Mixture of Experts)重みについてはエキスパートごとに処理を行います。
主なコストはエキスパート重みの直交化にあります。シャード化されたパラメータの場合、同じ形状のテンソルをバッチ化し、all-to-all 通信で完全な行列にシャードを集約し、Newton-Schulz 法を実行した後に、結果を元のシャード配置へ all-to-all で転送します。これらの転送は非同期で行われます:あるタスクが通信待ちをしている間に、オプティマイザのランタイムは他の Muon タスクを進め、ネットワークと計算処理をオーバーラップさせます。これは完全行列版の Muon と同等の効果を持ちつつ、シャードグループを常に稼働状態に保ちます。1T モデルでは、オプティマイザステップの実行時間は 0.2 秒です。
これは、MoE モデルにおける HSDP の使用法と密接に関連しています。HSDP は複数の FSDP レプリカを形成し、対応するシャード間で勾配の全結合集約を行います。非専門家重みと専門家重みには別々の HSDP レイアウトを使用します:非専門家重みは比較的小さいため、その FSDP グループは狭く保つことができ、多くの場合 1 つのノード内またはラック内に収まります。一方、専門家重みはパラメータの大部分と Muon の計算量の大部分を占めるため、より広い専門家シャディングメッシュを使用します。
これらのレイアウトを分離しておくことで、独立した並列化次元を重複させることも可能になります:CP=2 と EP=8 を 1 つの共有メッシュで 16 個の GPU を必要とするのではなく、8 個の GPU で実行できます。これにより、小さな非専門家状態に対する広範な通信を避けつつ、専門家のオプティマイザ処理を多数の GPU に分散させることができます。
Composer 2.5 をお試しください
Composer 2.5 の料金は、入力トークンあたり $0.50/M、出力トークンあたり $2.50/M です。
また、同じ知能を持ちながらより高速なバリアントも用意されており、その料金は入力トークンあたり $3.00/M、出力トークンあたり $15.00/M です。これは他のフロンティアモデルの高速ティアよりも低コストです。Composer 2 と同様に、高速版がデフォルトオプションとなっています。詳細については、モデルドキュメントをご覧ください。
Composer 2.5 は、初週に限り使用量が倍増します。
原文を表示
Composer 2.5 is now available in Cursor.
It's a substantial improvement in intelligence and behavior over Composer 2. It is better at sustained work on long-running tasks, follows complex instructions more reliably, and is more pleasant to collaborate with.

We improved Composer by scaling training, generating more complex RL environments, and introducing new learning methods.
In addition to training Composer 2.5 on more difficult tasks, we improved behavioral aspects of the model like communication style and effort calibration. These dimensions are not well captured by existing benchmarks, but we find that they matter for real-world usefulness.

Composer 2.5 is built on the same open-source checkpoint as Composer 2, Moonshot's Kimi K2.5.

Together with SpaceXAI, we're training a significantly larger model from scratch, using 10x more total compute. With Colossus 2's million H100-equivalents and our combined data and training techniques, we expect this to be a major leap in model capability.
Training Composer 2.5
Composer 2.5 contains several new improvements to our training stack. These changes target both model intelligence and usability.
Targeted RL with textual feedback
Credit assignment during RL is becoming an increasingly difficult challenge as rollouts can span hundreds of thousands of tokens. When a reward is computed over an entire rollout, it may be hard for the model to tell which specific decision helped or hurt the outcome. This is especially limiting when we want to discourage a localized behavior, such as a bad tool call, a confusing explanation, or a style violation. The final reward can tell us that something went wrong, but it is a noisy signal for *where* it went wrong.
To address this, we trained Composer 2.5 with targeted textual feedback.1 The idea is to provide feedback directly at the point in the trajectory where the model could have behaved better. For a target model message, we construct a short hint describing the desired improvement, insert that hint into the local context, and use the resulting model distribution as a teacher. We use the policy with the original context as the student and add an on-policy distillation KL loss that moves the student's token probabilities toward the teacher's. This gives us a localized training signal for the behavior we want to change, while still retaining the broader RL objective over the full trajectory.
As an illustration of the text feedback process, consider a long rollout that includes a tool call error where the model attempts to call a tool that is not available. During the rollout, the model will receive a “Tool not found” error and continue making additional valid tool calls. The fact that it hit one error in the process of hundreds of tool calls will have a minimal impact on its final reward.
With text feedback, we can target this specific mistake by inserting a hint in the context of the problematic turn, such as “Reminder: Available tools…” with a list of available tools. This hint changes the probabilities for the teacher, lowering those for the wrong tool and increasing those for a valid replacement. For that turn only, we then update the student weights towards to the new probabilities.
During the Composer 2.5 run, we applied this method to a variety of model behaviors, from coding style to model communication.

Synthetic data
During RL training, Composer's coding ability improves substantially to the point where it begins to get most training problems correct. To continue increasing intelligence, we both select for and create harder tasks dynamically throughout the run. Composer 2.5 is trained with 25x more synthetic tasks than Composer 2.
We use a range of approaches for creating synthetic tasks that are grounded in real codebases. For example, one synthetic approach is feature deletion. For these tasks the agent is given a codebase with a large set of tests, and asked to delete code and files in such a way that the codebase remains functional while specific testable features are removed. The synthetic task is to reimplement the feature, and the tests are used as a verifiable reward.
One downstream consequence of large scale synthetic task creation is that it can cause unexpected reward hacking. As the model became more adept, Composer 2.5 was able to find increasingly sophisticated workarounds to solve the task at hand. In one example, the model found a leftover Python type-checking cache and reverse-engineered the format to find a deleted function signature. In another, it was able to find and decompile Java bytecode to reconstruct a third-party API. We were able to find and diagnose these problems using agentic monitoring tools, but they demonstrate the increasing care necessary for large scale RL.

Sharded Muon and dual mesh HSDP
For continued pretraining, we use Muon with distributed orthogonalization. After forming the momentum update, we run Newton-Schulz at the model's natural granularity: per attention head for attention projections, and per expert for stacked MoE weights.
The main cost is orthogonalizing expert weights. For sharded parameters, we batch same-shaped tensors, all-to-all shards into complete matrices, run Newton-Schulz, then all-to-all the result back to the original sharded layout. These transfers are asynchronous: while one task is waiting on communication, the optimizer runtime advances other Muon tasks, overlapping network and compute. This is equivalent to full-matrix Muon, but keeps the shard group busy; on the 1T model, optimizer step time is 0.2s.
This interacts closely with how we use HSDP for MoE models. HSDP forms multiple FSDP replicas and all-reduces gradients across corresponding shards. We use separate HSDP layouts for non-expert and expert weights: non-expert weights are comparatively small, so their FSDP groups can stay narrow, often within a node or rack, while expert weights hold most of the parameters and most of the Muon compute, so they use a wider expert sharding mesh.
Keeping these layouts separate also lets independent parallelism dimensions overlap: CP=2 and EP=8 can run on 8 GPUs instead of requiring 16 in a single shared mesh. This avoids wide communication for small non-expert state while spreading expert optimizer work over many GPUs.
Try Composer 2.5
Composer 2.5 is priced at $0.50/M input and $2.50/M output tokens.
There's also a faster variant with the same intelligence at $3.00/M input and $15.00/M output tokens, a lower cost than the fast tiers of other frontier models. Similar to Composer 2, fast is the default option. See our model docs for full details.
Composer 2.5 includes double usage for the first week.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み