AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Hugging Face Blog·2026年6月10日 00:56·約21分で読める

開発者向け初のモデル「North Mini Code」の発表:Cohere が Hugging Face で紹介

#LLM#コード生成#強化学習#Cohere#Hugging Face
TL;DR

Cohere が開発者向けに最適化された初のコードモデル「North Mini Code」を発表し、非同期強化学習や内部人間評価ベンチマークを通じてコーディング能力の向上を図った。

AI深層分析2026年6月10日 22:14
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

開発者特化モデルの登場

Cohere が初めて開発者のためのコード生成に特化した「North Mini Code」モデルを発表し、Hugging Face Blog で詳細が共有された。

2

コーディング卓越性のためのポストトレーニング

汎用能力に加え、特定のコーディングタスクに対する熟練度を高めるために、高度なポストトレーニング手法が採用されている。

3

非同期強化学習の活用

エージェント型コーディングにおいて、非同期強化学習(Asynchronous RL)を活用することで、モデルのロバスト性と推論効率を向上させている。

4

厳格な評価基準とベンチマーク

単なる自動評価だけでなく、内部人間評価ベンチマークや多様なハーン(Harness)でのテストを通じて、品質の堅牢性を保証している。

5

RLVRトレーニングによる性能向上

オンライン強化学習(RLVR)により、Terminal-Bench v2 で pass@1 が 7.9%、SWE-Bench で 3.0% 絶対値の改善が見られ、特にコード編集タスクでの勝率が 66.1% に達しました。

6

内部人間評価ベンチマークの実施

既存ベンチに加え、コード説明・編集・可視化・ゼロからの実装の 4 つ機能について人間アノテーターによるペア比較評価を行い、RLVR モデルが SFT モデルを上回る結果を示しました。

7

モデルの可用性と公開

North Mini Code は OpenCode、Cohere API、HuggingFace で BF16 および FP8 量子化バージョンとして利用可能となっています。

影響分析・編集コメントを表示

影響分析

この発表は、Cohere が汎用 LLM から開発者支援ツールへの戦略的シフトを明確に示すものであり、コード生成市場における競争力を強化する重要な一歩です。特に非同期強化学習と人間評価の組み合わせは、AI エージェントの実用性を高めるための新たな基準を示唆しており、開発ワークフローの効率化に寄与すると期待されます。

編集コメント

開発者支援ツール市場において、単なるコード補完を超えた「エージェント型」の能力強化に注力する動きが加速しています。Cohere のこのアプローチは、実務での信頼性を高めるための重要な指標となるでしょう。

記事一覧に戻る

  • アーキテクチャ
  • コーディングの卓越性とハーンチス全体での堅牢性を目的としたポストトレーニング
  • エージェント型コーディングのための非同期強化学習と内部人間評価ベンチマーク
  • 始め方
  • 著者リスト(拡張版)
  • ベンチマーク手法
  • 引用
  • 参考文献・脚注

*以下に列挙されたすべての共著者*

本日、Cohere は、Apache 2.0 ライセンスの下で Hugging Face で利用可能になった、30B パラメータを持つ Mixture-of-Experts モデル「North Mini Code」を発表します。このモデルはアクティブパラメータが 3B に設定されており、強力なエージェント型コーディング機能を備えています。

North Mini Code は、Cohere の新しいモデルファミリーにおける最初のモデルであり、特にエージェント型ソフトウェアエンジニアリングタスクのために設計・訓練されています。

*図 1: North Mini Code のパフォーマンスは、同サイズの主要なオープンソースモデルと比較して、エージェント型コーディングタスクおよび複雑なコード生成ベンチマークにおいて顕著です。ベンチマーク手法の詳細はこちらをご覧ください。*

North Mini Code は、複雑なソフトウェアエンジニアリングワークフロー、ターミナルベースのエージェント型タスク、高品質なコード生成に最適化されています。Artificial Analysis のコーディングインデックスにおいて、North Mini Code は 33.4 のスコアを達成し、Qwen3.5 (35B-A3B)、Gemma 4 (26B-A4B)、Devstral Small 2 (24B Dense) を上回っています。さらに、Nemotron 3 Super (120B-A12B)、Mistral Small 4 (119B-A6B)、Devstral 2 (123B) といった大幅にパラメータ数の多いモデルをも凌駕しています。1 このサイズクラスにおいて、North Mini Code は最強クラスのオープンソースコーディングモデルの一つとしてランクされています。

OpenCode で North Mini Code を試す

実世界のコードエージェントは、モデルの品質と、あらゆるエージェントハーンチスにおける堅牢性に依存します。私たちは North Mini Code を単一のハーンチスに最適化するのではなく、複数のスケフォールド(足場)を用いて訓練しました。このアプローチにより、North Mini Code は OpenCode などのコーディングエージェントにとって信頼性の高い基盤として機能します。

アーキテクチャ

*図 2: North Mini Code は、交互に配置されたスライディングウィンドウ自己注意機構と完全な自己注意機構を備えた、Mixture-of-Experts(専門家混合)Transformer デコーダです。*

North Mini Code は、デコーダ専用の Transformer ベースのスパース Mixture-of-Experts モデルです。効率的なアテンション実装を採用しており、RoPE を用いたスライディングウィンドウアテンションと位置埋め込みを伴わないグローバルアテンションが 3:1 の比率で交互に配置されています [1]。フィードフォワードブロックは、128 個の専門家(エキスパート)を持つ MoE ブロックであり、トークンごとにそのうち 8 個が活性化されます。各専門家のブロックは、SwiGLU 活性化関数を用いた FFN ブロックです。ルーターは、top-k 選択の前にロジットに対してシグモイド活性化関数を適用します。また、スパース層の前には単一の密結合層も使用しています。

コーディング卓越性のためのポストトレーニング

*図 3: ポストトレーニングパイプラインは、ソフトウェアエンジニアリングおよびターミナルタスクを対象とした、2 つの段階の教師あり微調整(SFT)と、検証可能な報酬を用いたエージェント型強化学習(RLVR)の 1 つのフェーズで構成されています。*

私たちは、North Mini Code を、エージェント型コーディングに焦点を当てた二段階のカスケード型教師あり微調整(SFT)の後に、検証可能な報酬を用いた強化学習(RLVR)を用いてポストトレーニングします。第一段階の SFT データは、堅牢性と実用性を高めるために幅広いミックスに統合されたコーディング機能に焦点を当てています。このデータミックスには、多様なドメインにおけるプログラミング、推論、指示従順が含まれており、コードデータセットが学習可能トークンの 70% を占め、43% がエージェント型ツール使用データ、27% が単一ターン型の競争的または科学的プログラミングデータとなっています。第二段階の SFT では、エージェント型および推論駆動型のサンプルのみからなる 45 億トークン規模のデータミックスを使用し、このうちコードデータが学習可能トークンの 61% を形成します。このミックスは、ツール呼び出しと補完が実行可能かつ正確に検証された、コーディングおよびより広範なエージェント型タスクにおける最高品質のデータで構成されています。

私たちの内部データパイプラインは、コンテナ化されたエージェント型コーディング環境に大きく依存しています。私たちは、合成 SFT データの生成や RLVR に使用するために、これらの環境の一部を分離したサブセットとして維持しています。その大部分は実世界のリポジトリからのソフトウェアエンジニアリングタスクに基づいており、残りはオープンソースおよび内部データセットから取得されたターミナルベースのエージェント型タスクです。合計で、約 5,000 の一意なリポジトリにわたる 7 万件以上の検証可能なタスクを使用しました。評価中のソースリーケージを回避するために、SWE-Bench [2] および SWE-Bench-Pro [3] のリポジトリソースに対して環境の重複排除を行っています [4]。

SFT の第一段階と第二段階では、それぞれ 64K と 128K のコンテキスト長を使用しました。この「長いものからさらに長いものへ」というカスケードアプローチ([5, 6] に類似)は、貴重な短いデータに対する二分法トレーニングを可能にし、堅牢なパフォーマンスのベースラインを確立した上で、高品質で検証されたサンプルのみを対象としたターゲティングされた長文コンテキストトレーニングへと移行します。多段階トレーニングを行わない場合、初期トレーニング段階での 20B の非コードトークンが、後期のトレーニングにおける 1.5B の高品質なコードデータに比べて支配的となり、異なるステージ間のデータトレンドから生じるパフォーマンスの低下や行動上の競合を引き起こします。経験則として、サンプルの長さ分布をほぼ完全に使用してトレーニングした場合の方が、64K までの切り捨てられた分布のみでトレーニングした場合よりも、評価時の最終的な軌道が*短くなる*ことが観察されています。

SFT(Supervised Fine-Tuning)中に North Mini Code を定量的指標の最適化に向けて調整するのではなく、RLVR(Reinforcement Learning from Verifiable Rewards)のための *プリミング* として SFT を厳格に使用するアプローチを採用しました。データミックスは、下流ステージにおけるサンプリングの多様性と pass@K(高 K の場合)を最適化します。サンプルレベルでのフィルタリングを行い、無効なツール呼び出し、誤った空白文字の生成、不正な特殊トークン、あるいは幻覚的な引用といった病理的現象を除去しています。望ましくない RLVR 動作(例:低エントロピー、無効な構造化生成など)を引き起こすアーティファクトやハイパーパラメータは、アブレーション実験を通じて剪定されました。最終的な SFT モデルは、SWE-Bench Verified で pass@10 が 80.2%、Terminal-Bench v2 で pass@10 が 55.1% を達成しています。

ハーネス全体での堅牢性

ハーネスの堅牢性は、エージェントが多様で予測不能なツール環境に直面する現実的なソフトウェア開発設定においてモデルの使いやすさを向上させます。これらの環境は、プロンプトの違いだけでなく、根本的なツールの使用モダリティにおいても異なります。例えば、SWE-Agent [8] は、bash、str_replace_editor、submit ツールといった専門コマンドとテンプレート化された観測値を備えた比較的豊富なエージェント CLI インターフェースを提供します;mini-SWE-agent [9] はこれを単一の bash ツールに簡素化し、シェルからの生 stdout を唯一のフィードバックとしています;OpenCode [10] は、編集、grep、todowrite、タスクなど、細かく個別にタイプされたツールを使用し、構造化 JSON 応答を返します。

*図4: さまざまなエージェント型コーディングハルネスを駆動するために、North Mini Code は第2段階のSFT(Supervised Fine-Tuning)期間中に多様なコーディングハルネスに曝されます。

クロスハルネッス一般化に対処するため、第2段階のSFT期間中に少量の追加ベンチマークハルネッスデータ(SWE-Agent ハルネッスの選択されたSFTミックスの50%に対して6%)を導入しました。具体的には、このデータミックスにより、OpenCode ハルネッスでの評価で10%の向上が達成されつつ、SWE-Bench Verified における SWE-Agent のパフォーマンスは維持されました。これは、ベンチマーク性能を低下させることなく、クロスハルネッス転移を低コストで獲得可能であることを示しています。特筆すべきは、North-Code-Mini が mini-SWE-Agent を用いて61.0%の pass@1 を達成したことであり、この改善はクロスタスク・クロスハルネッスの設定において無料で得られたものであり、ツール機能に重複のあるハルネッスには正の転移をもたらす十分な表現構造が共有されていることを示唆しています。また、ハイブリッドハルネッスデータでのトレーニング時にデータ競合が最小限であることを観察しており、異なるハルネッスが必要とするスキルは通常、互いに矛盾するものではなく補完的なものであることがわかります。

同様に、公式の Terminal-Bench は独自の Terminus 2 ハーネスを使用しており、すべてのエージェントと CLI の相互作用はネイティブなツール呼び出しではなく、プレーンテキストのチャットターンを通じて行われます。Terminus 2 に対してモデルを事前準備するために、データミックスの中に少量(20%未満)のデータをプレーンテキスト形式で含めています。これにより、モデルが自然に汎化できることが確認されています。興味深いことに、また、モデルが理解なしに固定されたテンプレートを単に再生するのではなく、指示と行動の間の適切なリンクを確立できるようにするためには、様々なハーネスにおいて十分なバリエーション(データ拡張に類似した手法)を導入することが重要であることも発見しました。これは特に、ハーネス同士が互いに似ている場合に重要です。

エージェントコーディングのための非同期 RL

コーディングエージェントのロールアウトは長く、その長さは非常にばらつきがあります。最も遅い軌道は、中央値よりも通常 1 桁長いものです。同期型の RL ループでは、バッチごとにこれらの試行が生成されるのをトレーナーが待機することになるため、サンプリングと学習を分離しました:トレーナーはロールアウトを*連続的に*提供する vLLM サイドカーと共に実行されます。ポリシー重みは数回の学習ステップ(K=4)ごとに vLLM にエクスポートされるため、サンプラーは常にわずかにオフポリシーの状態になります。この残りの不整合は、損失レベルで修正されます。

学習プロセスが最長のロールアウトを待たされるのを防ぎつつ、タスク間でのデータ分布の偏りを回避するために、*ウィンドウ付き*の先入れ先出し(FIFO)キュー(トレーナー↔サンプラー)を使用しました [11]。このキューでは、先頭の小さな部分が完了順に消費されて遅れをとったタスクを解消し、残りは入力順のまま保持されます。実証的に、この手法は完了順序スキームの処理能力の大部分を回復しつつ、学習の安定性を測定可能な範囲で阻害することはありません。

私たちは CISPO [12] を用いてトレーニングを行います。これはトークンレベルでの重要性サンプリング補正を備えた対数尤度目的関数です。CISPO は PPO や GRPO と異なり、重要度重みが確率比ではなく対数尤度に乗算され、RLOO [13] をより強力な正則化で強化します。損失はプロンプトレベルではなくトークンレベルで集約されるため、勾配信号が軌跡の長さに比例してスケーリングし、長いエージェントトレース(ここでクレジット割り当て信号の大部分が存在する)が短いものに対して相対的に軽視されることがなくなります。

単一のマルチ環境 RL 学習 – 私たちは、ターミナルベースのタスクとソフトウェアエンジニアリングタスクという 2 つのタスク環境にまたがる、単一のマルチ環境オンライン RL 学習実行を行いました。各トレーニングバッチは 512 のロールアウトで構成され、プロンプトごとに 8 個のロールアウトがグループサイズとしてサンプリングされます。すべてのロールアウトは、128K トークンのグローバルコンテキストウィンドウを共有します。タスクの複雑さの違いに対応するため、各タスクには個別のエージェントステップ予算が割り当てられています。これらのタスク別予算は、RLVR(Reinforcement Learning from Verifiable Rewards)前に実施された pass@k フィルタリングに基づいて設定されており、各タスク分布の難易度に対して適切にキャリブレーションされています。モデルに必要なターン予算よりも大幅に大きな予算を与えると、ロールアウトにおいて不要な冗長性や不安定さが生じることが観察されました。

ターミナルベースのタスクについては、Harbor の Tmux セッション実装に基づく単一のターミナル使用ツールを採用したシンプルな ReAct ハーネスでエージェントを構成し、SWE タスクについては SWE-agent [8] ハーネスを採用します。両方の環境は、環境状態をエンコードした事前構築された Docker イメージ、自然言語によるユーザープロンプト、および検証に使用される一連のユニットテストをエージェントに提供します。私たちは、内部データセットとオープンソースデータセットを組み合わせてトレーニングを行い、許容可能な pass@k レートを持つ問題のみを残すようにフィルタリングしています。具体的には、自明に解決できる事例や完全に解決不可能な事例は除外します。検証にはユニットテストベースの検証器から導出されたバイナリ報酬を使用します。さらに、モデルは不正なツール呼び出しや構文解析不能な出力を生成した場合に 0 の報酬を受け取り、これによりトレーニング初期段階で幻覚的なまたは malformed なツール呼び出しの発生率を劇的に低下させることが可能になります。

*Figure 5: マルチ環境 RL トレーニング実行は、SWE-Bench Verified や Terminal-Bench v2 などのベンチマークにおけるモデル性能を向上させます。学習曲線は左側に、RLVR トレーニングプロセス全体にわたって表示されています。

オンライン RL によるパフォーマンスと堅牢性の向上 – RLVR 訓練により、最終モデルのパフォーマンスは SFT 初期化から Terminal-Bench v2 で pass@1 が 7.9%(絶対値)、SWE-Bench で 3.0%(絶対値)向上しました。両環境での統合訓練が個別に訓練するよりも強力な結果をもたらすこと、および分布外タスクに対する汎化性能も優れていることを観察しています。正答率スコアだけでなく、エージェントの堅牢性においても顕著な改善が見られ、RLVR モデルはより短い軌道(trajectories)を生成し、無効または失敗するツール呼び出しが減少します。最終モデルはまた、反復的なツール呼び出しループも少なく、解決策の提出やユーザーへの応答によって確実に軌道を完了させることが確認されています。

内部人間評価ベンチマーク

既存のコーディングベンチに補完する形で、私たちはモデルのパフォーマンスを分布外問題において人間アノテーターとのペア比較で測定するための独自の内部ベンチマークスイートも開発しました。他のベンチ設定と同様に、Harbor を通じて OpenCode で活用されているモデルの各バージョンを評価しました。モデルパフォーマンスを理解するために、4 つの異なる機能についてベンチマークを実施します:

  • コード説明:モデルは、README ファイル内またはユーザーに対して、特定のコードリポジトリの技術的な側面を説明するよう求められます。
  • コード編集:モデルは既存のコードベースに基づいて機能を実装するタスクを負担します。
  • データ可視化:データサンプルが与えられた場合、モデルは特定のフレームワークを用いて特定の可視化を作成するタスクを負います。追加のコードは提供されません。
  • 一からの実装:設計仕様と使用するパッケージのみが与えられ、モデルは主にフロントエンドデザインに焦点を当ててプロジェクトを一から作成するタスクを負います。

評価者は、個々の回答基準を評価し、個別の試行にスコアリングを行うために、ルブリックベースの評価質問を与えられます。その後、2 つのモデル軌道間の最終的な優先順位評価を行います 2。私たちは、North Mini Code の評価結果を共有します。これは、SFT チェックポイントと最終モデルリリースチェックポイントを比較したものです。

*図 6: 85 サンプルにわたって、RLVR 後の最終 North Mini Code チェックポイントと SFT のみのチェックポイントを比較した人間評価のペアワイズ優先順位結果。*

私たちの評価では、RLVR は特にコード編集タスクにおけるモデルのパフォーマンスを向上させ、最終モデルがその SFT のみの対照モデルに対してサブセット全体で 66.1% の集計勝率を示す結果となりました。

始め方

North Mini Code モデルは、OpenCode、Cohere API、および HuggingFace で利用可能です。BF16 および FP8(量子化)重み付きです:bf16、fp8

著者リストの拡張

コードエージェントチームおよびノースミニコードグループ: Jay Alammar, Sophia Althammer, Dennis Aumiller, Leon Engländer, Yannis Flet-Berliac, Eden Gilbert, Sarra Habchi, Kylie He, Dhruti Joshi, Jozef Mokrý, David Mora, Josh Netto-Rosen, Deniz Qian, Lawrence Rodgers, Willem Röpke, Tom Sherborne, Ahmet Üstün, Minjie Xu

事前学習および推論チーム: Diana Abagyan, Sammie Bae, Björn Bebensee, Walter Beller-Morales, Sepideh Shaterian Bidgoli, Bas Büller, David Cairuz, Kris Cao, Roman Castagné, Giannis Chatziveroglou, Tim Chung, Felipe Cruz, Rishit Dholakia, Ali Edalati, Nikolas Gritsch, Kilian Haefeli, Prashant Kumar, Simon Lehnerer, Tony Liu, Alex McKinney, Ekagra Ranjan, Dev Shah, Zewen Shen, Sylvie Shi, Dwarak Talupuru, Komal Teru, Robin Vaaler, Bharat Venkitesh, Donglu Wang, Terrence Zhao, Leo Zhou, Conway Zhu

経営およびリーダーシップ: Phil Blunsom, Nick Frosst, Aidan Gomez, Manoj Govindassamy, Nick Jakobi, Patrick Lewis, Acyr Locatelli, Joelle Pineau, Ivan Zhang

ベンチマーク手法

当社のコアとなるエージェント機能は、SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench v2、および Terminal-Bench Hard を用いて測定されます。North-Code-Mini の評価には、SWE-Bench に対して Swe-Agent ハーネス v1.1.0 を使用し、Terminal-Bench v2 に対しては Harbor の Tmux セッション実装に基づく単一のターミナル利用ツールを採用したシンプルな ReAct ハーネスを使用しました。Terminal Bench Hard については、Artificial Analysis Intelligence Index と同じ手法に従い、Terminus-2 を直接使用して North Mini Code を他のモデルと比較しました。ベンチマークの公式なタイムアウト設定およびハードウェアリソース制限は、指定されている限りすべて準拠しています。さらに、科学的問題に対するコーディングパフォーマンスを測定する SciCode [15] およびツール利用以外のコーディングパフォーマンスに強いアルゴリズム推論能力を要する LiveCodeBench v6 [16] におけるコード生成能力も追跡しています。各ベンチマークは異なる 3 つのシードで実行し、温度パラメータを temperature=1.0、top_p を top_p=0.95 に設定して平均パフォーマンスを報告します。

競合他社の結果 – 競合モデルのスコアについては、利用可能な場合、元の報告書または Artificial Analysis Intelligence Index から公開された数値を使用しました。また、Gemma4 のエージェント型コーディングタスクに関するスコアは Qwen チームによって報告されています 17。図 1 に (*) で示されているように、どの公的報告にも記載されていないベンチマーク結果については、推奨されるモデル構成を用いて内部で実行しました。

引用

必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:

{"translation": "翻訳全文"}

@misc{cohere_north_code_mini,

title = {Introducing {North Mini Code}: Cohere's First Model For Developers},

url = {cohere.com/blog/north-mini-code},

author = {{Team Cohere}},

month = {June},

year = {2026}

}

References

[1] RoPE to NoPE and Back Again: A New Hybrid Attention Strategy

[2] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

[3] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

[4] On Leakage of Code Generation Evaluation Datasets

[5] Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

[6] Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

[7] Terminal-Bench: A Benchmark for AI Agents in Terminal Environments

[8] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

[9] https://github.com/SWE-agent/mini-swe-agent

[10] https://github.com/anomalyco/opencode

[11] Forge: スケーラブルなエージェント RL フレームワークとアルゴリズム

[12] MiniMax-M1: サンダーアテンション(Lightning Attention)を用いたテスト時計算の効率的なスケーリング

[13] 基本に立ち返る:大規模言語モデルにおける人間フィードバックからの学習のための REINFORCE 型最適化の再検討

[14] Harbor: コンテナ環境におけるエージェントとモデルの評価・最適化のためのフレームワーク

[15] SciCode:科学者によってキュレーションされた研究用コーディングベンチマーク

[16] LiveCodeBench: コード生成における大規模言語モデルの包括的かつ汚染のない評価

[17] Qwen3.6-35B-A3B:エージェント型コーディング能力が、今や誰でも利用可能に

脚注

  1. AAII コーディングインデックスには、ターミナルベンチハード(Terminal Bench Hard)がエージェント型コーディングタスクとして、また SciCode が科学問題向けのコード生成ベンチマークとして含まれています。↩
  1. 個別の評価と選好は、いずれも 5 段階リッカート尺度で評価されます。↩
原文を表示

Back to Articles

  • Architecture
  • Post-Training for Coding Excellence Robustness Across Harnesses
  • Asynchronous RL for Agentic Coding Internal Human Evaluation Benchmark
  • Get Started
  • Extended Author List
  • Benchmarking Methodology
  • Citation
  • References Footnotes

*All co-authors listed below*

Today, we are releasing North Mini Code, a 30B-parameter Mixture-of-Experts model with 3B active parameters with powerful agentic coding capabilities, available on Hugging Face under the Apache 2.0 license.

North Mini Code is the first model in Cohere’s new family of models, and is specifically designed and trained for agentic software engineering tasks.

*Figure 1: North Mini Code’s performance in agentic coding tasks and complex code generation benchmarks, compared to leading open-source models of similar size. See here for the details of our benchmarking methodology.*

North Mini Code is optimized for complex software engineering workflows, terminal-based agentic tasks, and high-quality code generation. On Artificial Analysis’ Coding Index, North Mini Code achieves a score of 33.4, outperforming Qwen3.5 (35B-A3B), Gemma 4 (26B-A4B), Devstral Small 2 (24B Dense), and even substantially larger models such as Nemotron 3 Super (120B-A12B), Mistral Small 4 (119B-A6B), and Devstral 2 (123B).1 It ranks among the strongest open-source coding models in its size class.

Try North Mini Code in OpenCode

Real-world code agents depend on model quality and robustness across agent harnesses. We trained North Mini Code using multiple scaffolds rather than optimizing for a single one. This approach enables North Mini Code to serve as a reliable foundation for coding agents such as OpenCode.

Architecture

*Figure 2: North Mini Code is a Mixture-of-Experts Transformer decoder with interleaved sliding-window self-attention and full self-attention.*

North Mini Code is a decoder-only Transformer-based sparse Mixture-of-Experts model. It uses our efficient attention implementation, interleaved between sliding-window attention with RoPE and global attention with no positional embeddings, in a 3:1 ratio [1]. The feed-forward block is an MoE block with 128 experts, of which 8 are activated per token. Each expert block is an FFN block with SwiGLU activation. The router applies a sigmoid activation function to the logits before the top-k selection. We also use a single dense layer before the sparse layers.

Post-Training for Coding Excellence

*Figure 3: The post-training pipeline is made up of two phases of supervised fine-tuning (SFT) and a phase of agentic reinforcement learning with verifiable rewards (RLVR) targeting software engineering and terminal tasks.*

We post-train North Mini Code using a two-stage cascaded supervised fine-tuning (SFT) followed by reinforcement learning with verifiable rewards (RLVR), focusing on agentic coding. Our first stage SFT data focuses on coding capabilities that are integrated within a wider mix for robustness and usability. The datamix includes programming, reasoning, and instruction following across a large variety of domains where the code datasets correspond to 70% of trainable tokens, 43% agentic tool-use data, and 27% single-turn competitive or scientific programming data. In the second stage SFT, we use a 4.5 billion token data mixture from only agentic and reasoning-driven samples, where code data forms 61% of trainable tokens. This mixture comprises our highest-quality data across coding and wider agentic tasks where tool calls and completions are verified as executable and correct.

Our internal data pipeline heavily relies on containerised agentic coding environments. We maintain a disjoint subset of these environments for use in synthetic SFT data generation and RLVR. The majority are based on software engineering tasks from real-world repositories, while the rest are terminal-based agentic tasks sourced from open-source and internal datasets. In total, we used over 70k verifiable tasks across ~5k unique repositories. We deduplicate our environments against the repository sources from SWE-Bench [2] and SWE-Bench-Pro [3] to avoid source leakage during evaluation [4].

We used 64K and 128K context lengths for the first and second stages of SFT, respectively. This “long-to-longer” cascade approach (similar to [5, 6]) enables bipartite training on valuable shorter data, establishing a robust performance baseline, followed by targeted long-context training only on high-quality verified samples. Without multi-stage training, the 20B non-code tokens during the initial training stage often dominated the 1.5B tokens of high-quality code data in later training, producing poorer performance and higher behavioral conflicts from data trends differing between stages. Anecdotally, training on a near-complete length distribution of samples produced *shorter* final trajectories during evaluation than training on a truncated distribution up to 64K only.

Instead of optimising North Mini Code towards quantitative metrics during SFT, we adopted an approach strictly using SFT as *priming for RLVR.* The data mixture optimises sampling diversity and pass@K (for high K) in downstream stages. We use sample-level filtering to remove any pathologies such as invalid tool calls, erroneous whitespace generation, malformed special tokens, or hallucinated citations. Artifacts or hyperparameters producing undesirable RLVR behaviours (e.g., low entropy, invalid structured generations) were pruned via ablations. The final SFT model achieves 80.2% pass@10 on SWE-Bench Verified [2] and 55.1% pass@10 on Terminal-Bench v2 [7].

Robustness Across Harnesses

Harness robustness improves model usability in realistic software development settings, where agents encounter diverse and unpredictable tooling environments. These environments differ not just in prompting but in fundamental tool-use modality, For instance, SWE-Agent [8] exposes a relatively rich agent-CLI interface with specialized commands (bash, str_replace_editor and submit tools) and templated observations; mini-SWE-agent [9] strips this down to a single bash tool, with raw stdout from shell as the only feedback; and OpenCode [10] uses fine-grained individually typed tools (edit, grep, todowrite and task etc) returning structured JSON responses.

*Figure 4: To power a variety of agentic coding harnesses, North Mini Code is exposed to a variety of coding harnesses during the second SFT stage.*

We address cross-harness generalization by introducing a small amount of additional benchmark harness data (6% of the SFT mix, compared to 50% of the chosen SWE-Agent harness) during the second SFT stage. Specifically, this data mix yields a 10% gain on the evaluation with OpenCode harness while maintaining performance with SWE-Agent on SWE-Bench Verified, demonstrating that cross-harness transfer can be cheaply acquired without degrading benchmark performance. Notably, North-Code-Mini achieves 61.0% pass@1 using mini-SWE-Agent, where the improvement emerged for free in the cross-task, cross-harness settings, suggesting that harnesses with overlapping tool capabilities share enough representational structure for positive transfer. We also observe minimal data conflict when training on hybrid harness data, indicating that skills required by different harnesses are usually complementary rather than contradictory.

Similarly, the official Terminal-Bench uses its own Terminus 2 harness, where all the agent-CLI interactions are communicated via plain-text chat turns (instead of native tool calling). In order to prime our models on Terminus 2, we include a small amount of data (less than 20%) in a plain-text format in the data mixture, which has proved sufficient for the model to naturally generalise across. Interestingly, we also find that it’s crucial to introduce sufficient variations in the various harnesses (akin to data augmentation) in order to force the model to properly establish the link between instructions and behaviours rather than simply regurgitating a fixed template without understanding, and this is especially important when the harnesses appear similar to each other.

Asynchronous RL for Agentic Coding

Coding-agent rollouts are long and highly variable in length, with the slowest trajectories routinely an order of magnitude longer than the median. A synchronous RL loop would idle the trainer waiting for those trials to be generated for every batch, so we decouple sampling from learning: a trainer runs alongside a vLLM sidecar that serves rollouts *continuously*. Policy weights are exported into vLLM every few learner steps (K=4), so the sampler is at most slightly off-policy at any moment. The residual mismatch is then corrected at the loss level.

To unblock the learner process from waiting on the longest rollouts while simultaneously avoiding a misbalance of data distribution across tasks, we used a *windowed* First-in-First-Out (FIFO) queue (trainer↔sampler) [11]: a small fraction at the head of the queue is consumed in completion order to drain stragglers, with the rest staying in input order. Empirically, this recovers most of the throughput of a completion-order scheme without measurably hindering training stability.

We train using CISPO [12], a log-likelihood objective with token-level importance sampling correction. CISPO differs from PPO and GRPO in that the importance weight multiplies a log-likelihood rather than a probability ratio and enhances RLOO [13] with stronger regularization. We aggregate the loss at the token level rather than the prompt level, so the gradient signal scales with trajectory length and long agentic traces (where most of the credit-assignment signal lives) are not down-weighted relative to short ones.

A single multi-environment RL train – We run a single multi-environment online RL training run spanning two task environments: Terminal-based tasks and software engineering tasks. Each training batch consists of 512 rollouts with a group size of 8 rollouts sampled per prompt. All rollouts share a global context window of 128K tokens. To account for differing task complexity, each task is assigned a distinct agentic-step budget. These per-task budgets were set based on pass@k filtering performed prior to RLVR, ensuring the budgets are appropriately calibrated to the difficulty of each task distribution. We observe that granting the model a turn budget substantially larger than necessary encourages unnecessary verbosity and hoppiness in its rollouts.

For Terminal-based tasks, we configure the agent with a simple ReAct harness employing a single terminal-use tool based on Harbor's Tmux session implementation [14], whereas for SWE tasks, we employ the SWE-agent [8] harness. Both environments provide the agent with a pre-built Docker image encoding the environment state, a natural language user prompt, and a set of unit tests used for verification. We train on a combination of internal and open-source datasets, filtered to retain only problems with an acceptable pass@k rate, i.e., excluding trivially solved and completely unsolvable instances. We use binary rewards derived from the unit-test-based verifier. In addition, the model receives a reward of 0 for generating invalid tool calls or unparseable outputs, enabling a sharp drop in the rate of hallucinated or malformed tool calls within the first training steps.

*Figure 5: The multi-environment RL training run improves model performance on benchmarks like SWE-Bench Verified and Terminal-Bench v2. Learning curves are displayed on the left across the RLVR training process.*

Higher performance and robustness with online RL – RLVR training improved the performance of the final model from the SFT initialization by 7.9% (absolute) pass@1 in Terminal-Bench v2 and 3.0% (absolute) in SWE-Bench. We observe that joint training across both environments yields stronger results than training on each separately, and also generalizes better to out-of-distribution tasks. Beyond correctness scores, we observe significant improvements in agent robustness where the RLVR model produces shorter trajectories and fewer invalid or failing tool calls. The final model also exhibits less repetitive tool-call looping, reliably concluding its trajectory by submitting a solution or responding to the user.

Internal Human Evaluation Benchmark

Complementary to existing coding benchmarks, we also developed our own internal benchmark suite to measure model performance on out-of-distribution problems in pairwise evaluation with human annotators. In line with other benchmark setups, we evaluated the iterations of our models harnessed in OpenCode through Harbor. To understand model performance, we benchmark on four distinct functionalities:

  • Code Explanation: Models are asked to explain particular technical aspects of a given code repository within a README file, or directly to the user.
  • Code Editing: Models are tasked to implement a feature based on an existing code base.
  • Data Visualization: Given data samples, models are tasked to create certain visualizations with a particular framework; no additional code is given.
  • Implementation from Scratch: Given only design specifications and the packages to use, models are tasked to create a project from scratch, focused primarily on front-end design.

Evaluators are provided with rubric-based scoring questions to help them assess individual response criteria and rate individual attempts first, before giving a final preference rating between the two model trajectories.2 We share evaluation results of North Mini Code, comparing the SFT checkpoint with the final model release checkpoint.

*Figure 6: Pairwise preference results for human evaluation comparing the final North Mini Code checkpoint after RLVR against the SFT-only checkpoint across 85 samples.*

Our evaluations show that RLVR especially improves model performance on code editing tasks, resulting in an aggregate win rate of 66.1% across subsets for the final model against its SFT-only counterpart.

Get Started

North Mini Code models are available in OpenCode, Cohere API, and in HuggingFace with BF16 and FP8 (quantized) weights: bf16, fp8

Extended Author List

Code Agents Team and North Mini Code Group:**Jay Alammar, Sophia Althammer, Dennis Aumiller, Leon Engländer, Yannis Flet-Berliac, Eden Gilbert, Sarra Habchi, Kylie He, Dhruti Joshi, Jozef Mokrý, David Mora, Josh Netto-Rosen, Deniz Qian, Lawrence Rodgers, Willem Röpke, Tom Sherborne, Ahmet Üstün, Minjie Xu

Pre-training and Inference Team:****Diana Abagyan, Sammie Bae, Björn Bebensee, Walter Beller-Morales, Sepideh Shaterian Bidgoli, Bas Büller, David Cairuz, Kris Cao, Roman Castagné, Giannis Chatziveroglou, Tim Chung, Felipe Cruz, Rishit Dholakia, Ali Edalati, Nikolas Gritsch, Kilian Haefeli, Prashant Kumar, Simon Lehnerer, Tony Liu, Alex McKinney, Ekagra Ranjan, Dev Shah, Zewen Shen, Sylvie Shi, Dwarak Talupuru, Komal Teru, Robin Vaaler, Bharat Venkitesh, Donglu Wang, Terrence Zhao, Leo Zhou, Conway Zhu

Management and Leadership:****Phil Blunsom, Nick Frosst, Aidan Gomez, Manoj Govindassamy, Nick Jakobi, Patrick Lewis, Acyr Locatelli, Joelle Pineau, Ivan Zhang

Benchmarking Methodology

Our core agentic capabilities are measured using SWE-Bench Verified, SWE-Bench Pro, Terminal-Bench v2, and Terminal-Bench Hard. North-Code-Mini was evaluated, using the Swe-Agent harness v1.1.0 for SWE-Bench, and a simple ReAct harness employing a single terminal-use tool based on Harbor’s Tmux session implementation for Terminal-Bench v2. For Terminal Bench Hard, we directly used Terminus-2, following the same methodology as the Artificial Analysis Intelligence Index to compare North Mini Code with the other models. We follow benchmarks’ official timeout and hardware resource limit settings wherever specified. We additionally track code generation capabilities in SciCode [15], which measures coding performance for scientific problems, and LiveCodeBench v6 [16], which requires strong algorithmic reasoning capabilities for coding performance outside of tool use. We run each benchmark with 3 different seeds and report the average benchmark performance, using temperature=1.0 and top_p=0.95.

Competitor results –** We used publicly reported scores for competitor models, either from original reports or the Artificial Analysis Intelligence Index, where available. Additionally, Gemma4’s scores for agentic coding tasks were reported by Qwen team \[17]. For benchmark results that any public report is missing, denoted by (*) in Figure 1, we run them internally using the recommended model configuration.

Citation

code
@misc{cohere_north_code_mini,
    title = {Introducing {North Mini Code}: Cohere's First Model For Developers},
    url = {cohere.com/blog/north-mini-code},
    author = {{Team Cohere}},
    month = {June},
    year = {2026}
}

References

[1] RoPE to NoPE and Back Again: A New Hybrid Attention Strategy

[2] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

[3] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

[4] On Leakage of Code Generation Evaluation Datasets

[5] Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

[6] Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

[7] Terminal-Bench: A Benchmark for AI Agents in Terminal Environments

[8] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

[9] https://github.com/SWE-agent/mini-swe-agent

[10] https://github.com/anomalyco/opencode

[11] Forge: Scalable Agent RL Framework and Algorithm

[12] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

[13] Back to Basics: Revisiting REINFORCE-Style Optimization for Learning from Human Feedback in LLMs

[14] Harbor: A Framework for Evaluating and Optimizing Agents and Models in Container Environments

[15] SciCode: A Research Coding Benchmark Curated by Scientists

[16] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

[17] Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All

Footnotes

  1. AAII Coding Index includes Terminal Bench Hard as an agentic coding task and SciCode as code generation benchmark for scientific problems. ↩
  1. Both individual ratings and preferences are assessed on a five-point Likert scale. ↩
この記事をシェア

関連記事

MarkTechPost★32026年6月10日 13:52

ストリーミング、Pandas、tiktoken を活用した NVIDIA Nemotron-Pretraining-Code-v3 メタデータからのコードデータセットパイプライン構築

MarkTechPost は、NVIDIA の大規模コード事前学習用データセット「Nemotron-Pretraining-Code-v3」のメタデータを対象に、フルダウンロードを避けてストリーミング処理し、Pandas と tiktoken を使用して分析可能なサンプルパイプラインを構築する手法を紹介している。

KDnuggets★32026年6月10日 23:00

低コストでのローカルエージェント型プログラミング:Claude Code、Ollama、Gemma4の活用

KDnuggets は、Claude Code と Ollama、Gemma4 を組み合わせることで、高価なクラウドサービスに頼らずローカル環境でエージェント型プログラミングを実現する手法を紹介している。

404 Media★32026年6月10日 22:36

ポッドキャスト:Google 社員の AI への不満を揶揄するミームについて

404 Media のポッドキャストでは、Google 社員が自社の AI の性能の低さを皮肉る内部ミームについて言及し、マイクロソフトが新 AI アシスタントで依存症を作ろうとしているという内部文書の内容も紹介している。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む