Composer 2に関する技術レポート
Cursor社は、オープンベースモデルKimi K2.5を継続事前学習し、大規模強化学習で実環境を模倣したエージェント型ソフトウェアエンジニアリング用コーディングモデル「Composer 2」の技術報告をarXivに公開し、自社評価ベンチマークCursorBenchで37%向上、推論コストを抑えつつ競合フロンティアモデルと同等の性能を達成したと発表した。
キーポイント
二段階の高度な学習プロセス
Composer 2は、コードを重視したデータでベースモデルの知識を深める継続事前学習と、実際のCursor環境を忠実に再現した大規模強化学習の2段階で訓練され、事前学習の損失低減が下流のRL性能向上につながることが確認された。
実務を反映した独自評価ベンチマーク「CursorBench」
公開ベンチマークの課題を克服するため、自社エンジニアの実際のコーディングセッションから構築したCursorBenchを開発・採用し、簡潔で曖昧なプロンプトや多数ファイルにわたる大規模変更を必要とする実践的なタスクでモデルを評価・調整した。
実用的な性能向上とコスト効率
CursorBenchで前バージョン比37%向上の61.3スコアを達成し、フロンティアモデルと競合する性能を示しつつ、同等モデルより大幅に低い推論コストで、開発者ワークフロー向けに精度とコストのパレート最適なトレードオフを実現した。
大規模訓練を支えるインフラ開発
Blackwell GPUでの効率的なMoE訓練のためのカスタム低精度カーネル、複数リージョンにまたがる完全非同期RLパイプライン、数十万のサンドボックス環境を実行する内部計算プラットフォーム「Anyrun」など、大規模なインフラ開発を実施した。
影響分析・編集コメントを表示
影響分析
この報告は、エージェント型AIツールの実用化において、従来の研究ベンチマークを超えた実務ベースの評価と、コスト効率を重視した開発アプローチの重要性を示している。特に、自社製品環境を忠実に再現した強化学習と、実開発者の作業を反映したベンチマーク構築は、AIツールの現場適用性を高めるための重要な方向性を提示しており、業界の実用化競争を加速させる可能性がある。
編集コメント
技術報告の公開という形式ながら、実用性能とコスト効率に焦点を当てた内容は、AIツールのビジネス展開を意識した戦略的な情報発信と言える。自社ベンチマークの優位性を主張する一方で、公開ベンチマーク結果も併記するバランスの取れたアプローチが特徴。
当社は、エージェント型ソフトウェアエンジニアリングのためのコーディングモデル「Composer 2」のトレーニングに関する技術レポートをarXivに投稿しました。本レポートは、オープンベースモデル「Kimi K2.5」での継続事前学習から大規模強化学習に至るまでのトレーニングプロセス全体を網羅し、実際のCursor環境を忠実に再現することに重点を置いています。
主な内容は以下の通りです。
#継続事前学習と強化学習
Composer 2のトレーニングは二段階で構成されます。第一段階は、コードを重点的に含むデータミックスによる継続事前学習で、ベースモデルのコーディング知識を深化させます。第二段階は、エンドツーエンドのエージェント性能を向上させるための大規模強化学習です。事前学習の損失を低減することが、下流の強化学習性能の向上につながり、優れた基礎知識が確実により優れたエージェントを生み出すことを確認しました。
Composer 2の強化学習トレーニングは、デプロイ済みモデルが使用するものと同じツールとハーネスを備えた、現実的なCursorセッション環境で実施されます。これは、開発者がComposerに依頼する多様なタスクの全体像を反映した問題分布に適用されます。強化学習トレーニングにより、平均性能とbest-of-K性能の双方が向上しており、モデルが既知の解法に集中するだけでなく、新しい解決経路を学習していることを示唆しています。
#CursorBenchによる実世界評価
コーディングモデル構築の核心的な課題は、公開ベンチマークが開発者の実際の作業を反映していないことが多い点です。タスクは過剰に規定され、解法は限定的で、コードベースも小規模になりがちです。
そこで当社は、自社エンジニアリングチームの実際のコーディングセッションから「CursorBench」を構築しました。これには、簡潔で曖昧なプロンプトのタスクや、多数のファイルにわたる数百行の変更を必要とする解法が含まれています。モデルが実問題に対応し続けるよう、トレーニングと評価の全過程でCursorBenchを使用しています。
CursorBenchにおいて、Composer 2は61.3点を獲得し、Composer 1.5と比較して37%の向上を示し、最先端の高性能モデルと競合する結果となりました。公開ベンチマークでは、SWE-bench Multilingualで73.7点、Terminal-Benchで61.7点を記録しています。これらの結果は、同等のモデルと比べて大幅に低い推論コストで達成されており、インタラクティブな開発者ワークフローにおいて、精度とコストのパレート最適なトレードオフを実現しています。
#インフラストラクチャ
Composer 2のトレーニングには、相当なインフラストラクチャ開発が必要でした。具体的には、Blackwell GPU上での効率的なMoE(Mixture of Experts)トレーニングのためのカスタム低精度カーネル、複数リージョンに跨る完全非同期の強化学習パイプライン、そして数十万のサンドボックス化されたコーディング環境を実行するための内部コンピュートプラットフォーム「Anyrun」などです。レポートでは、重み同期、フォールトトレランス、環境の忠実性へのアプローチを含む、技術スタック全体について詳述しています。
本レポートには、トレーニングレシピに関するアブレーション研究、エージェントの行動形成へのアプローチ、評価スイートの設計など、上記すべてに関する更に詳細な情報が記載されています。
Kimi K2.5、Ray、ThunderKittens、PyTorch、そして広範なオープンソースコミュニティを支えるチームの皆様に感謝いたします。また、FireworksおよびColfaxの皆様との協業とパートナーシップにも感謝申し上げます。
完全な技術レポートはこちらからお読みいただけます。




原文を表示
We posted to the arXiv a technical report on the training of Composer 2, our coding model for agentic software engineering. The report covers the full training process, from continued pretraining on an open base model, Kimi K2.5, through large-scale reinforcement learning, with a focus on closely emulating the real Cursor environment.
Here are a few highlights:
#Continued pretraining and RL
Composer 2 is trained in two phases: continued pretraining on a data mix that emphasizes code to deepen the base model's coding knowledge, followed by large-scale reinforcement learning to improve end-to-end agent performance. We find that reducing pretraining loss improves downstream RL performance, with better base knowledge reliably translating into a better agent.
Composer 2 RL training occurs in realistic Cursor sessions with the same tools and harness the deployed model uses, applied to a problem distribution that reflects the full range of what developers ask Composer to do. We find that RL training improves both average and best-of-K performance, suggesting the model is learning new solution paths rather than just concentrating on known ones.
#Real-world evaluation with CursorBench
A core challenge in building coding models is that public benchmarks often don't reflect the work developers actually do. Tasks are over-specified, solutions are narrow, and the codebases are small.
We built CursorBench from real coding sessions by our engineering team. It includes tasks where the prompt is terse and ambiguous, and solutions require hundreds of lines of changes across many files. We use CursorBench throughout training and evaluation to keep the model aligned with real problems.
On CursorBench, Composer 2 scores 61.3, a 37% improvement over Composer 1.5 and competitive with the strongest frontier models. On public benchmarks, Composer 2 scores 73.7 on SWE-bench Multilingual and 61.7 on Terminal-Bench. It achieves this at significantly lower inference cost than comparable models, giving it a Pareto-optimal tradeoff between accuracy and cost for interactive developer workflows.
#Infrastructure
Training Composer 2 required substantial infrastructure development with custom low-precision kernels for efficient MoE training on Blackwell GPUs, a fully asynchronous RL pipeline spanning multiple regions, and Anyrun, our internal compute platform for running hundreds of thousands of sandboxed coding environments. The report covers the full stack, including our approach to weight synchronization, fault tolerance, and environment fidelity.
The report has much more detail on all of this, including ablations on the training recipe, our approach to agent behavior shaping, and the design of our evaluation suite.
Thank you to the teams behind Kimi K2.5, Ray, ThunderKittens, PyTorch, and the broader open-source community. We'd also like to thank Fireworks and Colfax for their collaboration and partnership.
Read the full technical report here.




関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み