シャオミのオープンソース・エージェント型 AI コーディングハルネス「MiMo Code」が、200 ステップを超える超長尺タスクにおいて Claude Code を上回る
Xiaomi は、長期・多段階タスクにおけるコンテキスト消失問題を解決する独自のメモリアーキテクチャを持つオープンソース AI コーディングアシスタント「MiMo Code」を公開し、Claude Code を上回る性能を示したと発表した。
キーポイント
長距離タスクでの性能優位性
200 ステップを超える超長期・多段階タスクにおいて、Anthropic の Claude Code を凌駕する性能を内部ベンチマークと開発者調査で実証した。
記憶喪失問題の解決アプローチ
コンテキストウィンドウの限界により過去の決定が失われる問題を解消するため、SQLite FTS5 を活用したクロスセッション型メモリシステムと、独立した「チェックポイント作成サブエージェント」を採用している。
オープンソース化と無料提供
MIT ライセンスで GitHub に公開され、ターミナルコマンドまたは npm 経由で即座にインストール可能であり、同時に多モーダルモデル「MiMo-V2.5」の無登録無料アクセスも提供している。
技術的な実装詳細
OpenCode エージェントをベースに拡張し、プロジェクトメモリ(MEMORY.md)、セッションチェックポイント、スクラッチノート、タスク進捗ログの 4 層構造で情報を永続化・検索可能にする仕組みを実装した。
影響分析・編集コメントを表示
影響分析
この発表は、AI コーディングエージェントが単なるコンテキストウィンドウ内の処理に依存するのではなく、明示的な永続化メモリと分業アーキテクチャへ進化すべきであるという重要な示唆を与えます。特に長期的なプロジェクト開発における生産性向上の新たな基準を設ける可能性があり、オープンソースコミュニティ全体で「エージェントの記憶管理」に関する技術的議論が活発化するでしょう。
編集コメント
Xiaomi が公開した「チェックポイント作成サブエージェント」による分離アーキテクチャは、コンテキスト制限という AI エージェントの根本的な課題に対する極めて実用的な解決策であり、今後の開発ツール設計に大きな影響を与える可能性があります。
Xiaomi の MiMo AI チームは、中国の電子機器大手である同社が、特に長期的な多段階タスク(200 段以上)において Anthropic の Claude Code を上回る性能を持つと主張するターミナルネイティブ型 AI コーディングアシスタント「MiMo Code V0.1.0」をオープンソース化しました。これは少なくとも同社の内部ベータ版リリースおよび 576 名の開発者への調査に基づくものです。
また、登録不要で利用を開始できる、100 万トークンのコンテキストウィンドウを持つ多機能フラッグシップモデル「MiMo-V2.5」への期間限定無料アクセスも提供しています。
このリリースは、2026 年 6 月 10 日、公式アカウント @XiaomiMiMo がソーシャルネットワーク X に投稿した内容で発表されました。同社は本ツールを「ターミナル内の AI コーディングアシスタントを超えた、これまで出会った中で最も賢いコーディングパートナー」と表現しています。
MiMo Code は現在、GitHub で MIT ライセンス の下で利用可能です。macOS および Linux では単一のターミナルコマンド(curl -fsSL https://mimo.xiaomi.com/install | bash)で、Windows では npm(npm install -g @mimo-ai/cli)を介してインストールできます。
本プロジェクトはオープンソースの OpenCode エージェントをフォークしたものであり、Xiaomi 独自のメモリアーキテクチャ、ワークフローモード、およびモデルハネスを追加拡張しています。
AI コーディングエージェントの記憶喪失は終わるのか?
熱心な「バイブコーディング」を行う開発者なら誰でも認める通り、AI コーディングエージェントは長時間の作業セッションにおいて性能が低下します。コンテキストウィンドウがいっぱいになると、以前の決定事項や規約、タスクの状態が圧縮されてしまったり、完全に失われたりしてしまい、開発者はプロジェクトを再説明せざるを得なくなります。
Xiaomi はこのアプローチが大規模化すれば破綻すると主張しています。「私たちが求めているのはより良い圧縮ではなく、どの情報を永続的な構造に書き込むべきか、そしていつそれを呼び出すべきかを決定する明示的な保存・検索メカニズムです」と、MiMo チームはローンチブログで述べています。
MiMo Code はこれに対処するため、裏側では SQLite FTS5 フルテキスト検索 (SQLite FTS5 full-text search) を駆使したクロスセッションメモリシステムを採用しています。このシステムは 4 つのレイヤーにまたがっています:プロジェクトメモリ(永続的な MEMORY.md ファイル)、セッションチェックポイント、スクラッチノート、そしてタスクごとの進捗ログです。
ここで重要なのはメモ機能です。主要なコーディングエージェントが作業を中断してメモを取るよう強制するのではなく、このシステムは独立した「チェックポイントライター」サブエージェント (checkpoint-writer subagent) を展開します。
主要なコーディングエージェントを、専用の建築家であるチェックポイントライターサブエージェントと共に巨大な邸宅の建設に取り組む建設請負業者と想像してください。メインのエージェントが物理的な構造の構築に集中している間、サブエージェントは青写真をリアルタイムで更新し、プロジェクトの進行に伴い決定事項や課題、そして実際の現場状況を記録していきます。
コンテキストウィンドウが限界に近づくと、コントラクターは半完成の邸宅の中で迷子になりますが、サブエージェントに相談して再び自分の場所を見つけることができます。MiMo Code の場合、システムは関連するコンテキストとともに構造化されたチェックポイントから環境を再構築し、運用の勢いが失われないようにします。
2 つの自己改善メカニズムがシステムを完成させています。1 つ目は「/dream」コマンドで、定期的に(約 7 日ごと)過去のセッションを見直し、重複を排除して長期記憶に圧縮するものです。もう 1 つは「distill」関数で、過去から自動化可能な反復ワークフローを抽出するもので、これは最近 OpenAI や Anthropic がそれぞれのモデルで採用したアプローチに類似しています。
ソフトウェアエンジニアリング (SWE) ベンチマークでの印象的なパフォーマンス
Xiaomi の技術ブログ記事に掲載されたベンチマーク数値によると、MiMo Code を MiMo-V2.5-Pro と組み合わせたものは、Claude Code を Claude Sonnet 4.6 と組み合わせたものよりも、テストされたすべての 3 つの評価項目で上回りました。
imageMiMo Code と Claude Code のベンチマークパフォーマンス比較。クレジット:Xiaomi
- SWE-bench Verified: 82% vs. 79%
- SWE-bench Pro: 62% vs. 55%
- Terminal Bench 2: 73% vs. 69%
このハーン(harness)自体が、得点向上の測定可能な割合を占めています。両方のハーンで同じ MiMo-V2.5-Pro モデルを実行した場合、MiMo Code は SWE-bench Pro で 62% を達成し、Claude Code の 57% を上回りました。また、Terminal Bench 2 では 73% 対 68% となり、それぞれ約 5 ポイントの差があります。これはモデルの違いではなく、エージェントシステムそのものによるものです。
Xiaomi は特に、OpenAI の Codex や Google の Gemini CLI に対する比較結果を公開していませんでした。Claude Code が資料全体で唯一名前を挙げられた競合他社であり、ベンチマーク対象の選択が示唆に富んでいます。
独立した参照データがこの理由を示しています。tbench.ai で維持されている 公式 Terminal-Bench 2.0 リーダーボード によると、OpenAI の Codex CLI が GPT-5.5 を実行した場合のスコアは 82.2% です。これは MiMo Code が自己報告した 73% より約 9 ポイント高い数値です。また、OpenAI 自身の GPT-5.5 発表でも、同ベンチマークで 82.7% を達成したと主張されています。
しかし、SWE-Bench Pro の状況は逆転しています。OpenAI が報告する GPT-5.5 のスコアは 58.6% で、MiMo Code と MiMo-V2.5-Pro が主張する 62% に届きません。(なお、MiMo Code はまだ公式リーダーボードに登場しておらず、自己実行した数値とリーダーボードへの提出結果を相互比較するには、通常の設定に関する注意点が伴います。)
オフラインベンチマーク以上に興味深いのは、シャオミが社内ベータ版期間中に人間による二重盲検 A/B 評価を実施したという点です。この評価には 474 の実際のプライベートリポジトリで作業する 576 名の開発者が含まれ、同じターゲットモデルを用いて Claude Code と比較される 1,213 組の直接対決ペアが作成されました。
実行ステップ数が 200 を超える場合、両システムはほぼ 50/50 の勝率で拮抗しますが、200 ステップを超えると MiMo Code の勝利率は 65% を上回ります。これは同社の主張、すなわちそのメモリおよび状態管理アーキテクチャが長期にわたる作業において特に効果を発揮するという仮説を裏付けるものです。
シャオミ自身も、標準的なベンチマークは「依然としてワンショットでの問題解決能力を測定するものであり」、ツールのマルチセッション設計の目標を捉えきれていないと認めています。
常に言えることですが、これらは独立して検証されていないベンダー自慢の数値であり、直接対決形式のハーンチ(harness)比較は設定に敏感です。しかし、これらの主張はより広範な業界のパターンと一致しています。つまり、エージェント型コーディングにおけるパフォーマンスにおいて、スキャフォールディングやハーンチエンジニアリングが、純粋なモデル能力と同程度に重要になりつつあるという傾向です。
既存の開発者システムとの簡単な統合および音声制御
ユーザーエクスペリエンスの観点から、MiMo Code は開発者がすでに作業している環境で機能するように設計されています。ターミナル内で直接動作し、ファイルの読み書きやコマンドの実行、Git の管理を行います。
箱から出してすぐに、このツールはゼロ設定で動作し、「MiMo Auto」というチャネルに自動的に接続されます。これは一時的に無料で利用可能なチャンネルで、Xiaomi の多モーダル MiMo V2.5 モデルによって駆動されており、膨大な 100 万トークンのコンテキストウィンドウを備えています。既存の環境から移行する開発者にとって、この移行は摩擦なく行われます:MiMo Code は Claude Code から MCP サーバー、カスタムスキル、および API 設定を自動的にインポートします。
その他の注目すべき機能には以下が含まれます:
- コンポーズモード:Tab キーを押すと、エージェントが仕様駆動型ワークフローに切り替わります。このモードでは開発者が高レベルの目標を記述し、システムは Xiaomi が「初期段階で重厚な計画を立て、後段で安定した検証を行う」と説明する戦略に従って、設計、計画、コーディング、テスト、レビューを含む完全な開発サイクルを自律的に実行します。
- ボイスコントロール:Xiaomi の MiMo-ASR 音声認識と TenVAD 音声活動検出(Voice Activity Detection)に基づいて構築されており、開発者は口頭で指示をDictate(発話)し修正したり、「send」や「execute」といったコマンドを発声して完全なハンズフリー操作を実現できます(ログイン済みユーザー向けに利用可能)。
Xiaomi によると、エージェントハッチ自体による効果は計測可能です。同じ基盤となる MiMo モデルを両方のハッチで実行した場合、同社によれば MiMo Code は SWE-Bench Pro で 62% のスコアを獲得し、Claude Code の 57% を上回りました。また、Terminal Bench 2 では MiMo Code が 73%、Claude Code が 68% であり、それぞれ約 5 ポイントの差がついています。これはモデルの違いではなく、純粋にエージェントシステムによるものだとされています。
常に言えることですが、これらはベンダーが自己申告した数値であり、独立して検証されたものではなく、頭突き比較ハーン(harness)の比較は設定に敏感です。しかし、この主張は一貫しており、広範な業界のパターンと一致しています:エージェント型コーディングパフォーマンスにおいて、スキャフォールディングとハーンエンジニアリングは、生モデル能力と同様に重要になりつつあります。
攻勢的な手頃さ
多くの開発者にとってのより大きな魅力は、何が含まれているかかもしれません。
MiMo Code には「MiMo Auto」が同梱されており、これはゼロ構成のチャネルで、2026 年 4 月末に Xiaomi がリリースしたネイティブ多モーダルモデルである MiMo-V2.5 に、無料かつ期間限定でのアクセスを提供します。このモデルはスパース混合専門家(sparse mixture-of-experts)設計を採用し、総パラメータ数は 3100 億個(推論時はアクティブなパラメータが 150 億個のみ)、コンテキストウィンドウは 100 万トークンです。同社はこれを、多モーダルエージェントタスクにおいて Anthropic の Claude Sonnet 4.6 に匹敵するものとして位置付けています。
MiMo-V2.5 ファミリーが 4 月にリリースされた際に VentureBeat が報じたように、これらのモデルは MIT ライセンスの下にあり、エージェント型タスクに対して利用可能な最も効率的かつ手頃な価格のものの一つです。
より大規模な MiMo-V2.5-Pro は、1.02 兆パラメータのエキスパート混合モデルであり、420 億のパラメータがアクティブに機能し、ハイブリッド・アテンションアーキテクチャを採用しています。このモデルは、Xiaomi の ClawEval エージェントベンチマークにおいてオープンソース分野をリードし、63.8% の成功率を達成しました。その際、1 回のトラジェクトリーあたり約 70,000 トークンを消費するのみで、Anthropic の Claude Opus 4.6、Google の Gemini 3.1 Pro、OpenAI の GPT-5.4 が同等の結果を得るために必要なトークン数と比較して、およそ 40–60% 少ないものでした。
特筆すべきは、V2.5-Pro の学習後処理が明示的に「ハネス(実行環境)への意識」を植え付けるように設計されている点です。これは、Claude Code や OpenCode といったエージェントの足場内でモデル自身がメモリやコンテキストを管理できるように訓練するものであり、その能力を中心に最適化された Xiaomi 製のハネスを開発することは、論理的な次のステップと言えます。
価格設定も同様に攻めています:MiMo-V2.5 は入力トークン 100 万あたり$0.40、出力トークン 100 万あたり$2.00 からスタートします。一方、V2.5-Pro は 256K のコンテキストまでで入力・出力ともそれぞれ 100 万あたり$1.00/$3.00 です。それを超えると料金は倍増しますが、キャッシュヒット時には入力コストが 100 万あたりわずか$0.20–$0.40 に低下するため、世界中で利用可能な最先端モデルの中でも最も安価な部類に入ります。
VentureBeat Frontier AI Model API Pricing Snapshot
Model
Input
Output
Total Cost
Source
MiMo-V2.5 Flash
$0.10
$0.30
$0.40
deepseek-v4-flash
$0.14
$0.28
$0.42
deepseek-v4-pro
$0.435
$0.87
$1.305
MiniMax-M3
$0.30
$1.20
$1.50
Gemini 3.1 Flash-Lite
$0.25
$1.50
$1.75
Qwen3.7-Plus
$0.40
$1.60
$2.00
MiMo-V2.5
$0.40
$2.00
$2.40
Grok 4.3 (low context)
$1.25
$2.50
$3.75
MiMo-V2.5 Pro (≤256K)
$1.00
$3.00
$4.00
GLM-5
$1.00
$3.20
$4.20
Kimi-K2.6
$0.95
$4.00
$4.95
GLM-5.1
$1.40
$4.40
$5.80
Grok 4.3 (high context)
$2.50
$5.00
$7.50
MiMo-V2.5 Pro (>256K)
$2.00
$6.00
$8.00
****Xiaomi MiMo
Qwen3.7-Max
$2.50
$7.50
$10.00
Gemini 3.5 Flash
$1.50
$9.00
$10.50
Gemini 3.1 Pro Preview (≤200K)
$2.00
$12.00
$14.00
GPT-5.4
$2.50
$15.00
$17.50
Gemini 3.1 Pro Preview (>200K)
$4.00
$18.00
$22.00
Claude Opus 4.8
$5.00
$25.00
$30.00
GPT-5.5
$5.00
$30.00
$35.00
Claude Fable 5 / Claude Mythos 5
$10.00
$50.00
$60.00
Xiaomi のモデルを一切使いたくない開発者のために、MiMo Code はサードパーティ製バックエンドもサポートしており、DeepSeek のトークンプランや Moonshot 社の Kimi、Zhipu 社の GLM などに加え、OpenAI 互換 API も利用可能です。これは、その親プロジェクトである OpenCode が持つ「持ち込みモデル」の柔軟性を踏襲したものです。
Terminal AI coding agent wars go global
MiMo Code は、Anthropic の Claude Code、OpenAI の Codex CLI、Google の Gemini CLI、そして OpenCode や Aider といったオープンソースプレイヤーなど、ターミナルベースのコーディングエージェントがますます過熱する市場に登場しました。
新登場したのが、世界第3位のスマートフォンメーカーであり、急速に成長するEV事業を擁するシャオミです。同社は2025年4月に推論モデル「MiMo-7B」を発表した後、一貫してMiMo AI部門の構築を進めてきました。その後、MiMo-VLビジョン・ランゲージシリーズ、MiMo-V2-Flash、2026年3月には1兆パラメータを誇るMiMo-V2-Pro、そして4月にはV2.5フラッグシップファミリーと続々と発表しています。
この取り組みは、DeepSeekの画期的なR1プロジェクトで経験を積んだFuli Luo氏が率いています。同氏はシャオミの最前線への挑戦を「静かなる奇襲」と表現し、V2.5の発表に合わせて開発者向けに100兆トークンの無料付与を発表することでこれを裏付けています。
この戦略は、DeepSeek、AlibabaのQwen、MiniMax、そしてMoonshot AIのKimiシリーズなど、すでに馴染み深いものです。つまり、米国の研究所価格の数分の一で、実際に機能するモデルとツールを寛容なライセンスの下に公開し、そこから生まれる開発者間の支持を、持続可能なエコシステムへと変換していくという手法です。
オープンソースのエージェントハネスと無料の最前線クラスモデルを組み合わせることで、シャオミは少なくとも現時点では、参入におけるライセンス料および利用コストの両方を効果的に排除しています。
企業や技術意思決定者にとっての意味
エンジニアリングリーダーにとって、MiMo Code は低リスクで潜在的に高価値な評価候補です。MIT スタイルのライセンスにより修正や商用統合が可能であり、OpenCode の系譜によってアーキテクチャが検証可能であること、そして BYOM(Bring Your Own Model)サポートにより、シャオミのクラウドではなく社内承認されたエンドポイントに接続できることが挙げられます。
永続的メモリシステムは、エージェント開発ワークフローにおいて実際に広く感じられている痛みを解消するものであり、競合他社もこの課題の解決に向けて競争しています。
対照的な考慮点として、「期間限定無料」モデルへのアクセスは定義上一時的であり、コードコンテキストがシャオミのサーバーを経由するため、厳格なデータ所在地要件や知的財産権ポリシーを持つ組織にとっては採用の障壁となり得ます。また、Claude Code に対するベンチマークでの優位性は自己申告によるものであり、バージョン番号が V0.1.0 であることは成熟度について示唆する通りです。
中国製テクノロジーベンダーへの米国政府調達制限の対象となるチームは、採用を検討する前にこの文脈も考慮すべきです。
原文を表示
Xiaomi's MiMo AI team has open-sourced MiMo Code V0.1.0, a terminal-native AI coding assistant that the Chinese electronics giant says outperforms Anthropic's Claude Code on key agentic coding benchmarks, especially on long-horizon, multi-step tasks (200+ steps) — at least, according to its own internal beta release and survey of 576 developers.
It's also bundling limited-time free access to MiMo-V2.5, its multimodal flagship model with a million-token context window, requiring no registration to get started.
The release was announced June 10, 2026 in a post on the social network X from the official @XiaomiMiMo account, which described the tool as "more than an AI coding assistant in your terminal — it's the smartest coding partner you'll ever work with."
MiMo Code is available now on GitHub under an MIT license, and installs with a single terminal command (curl -fsSL https://mimo.xiaomi.com/install | bash) on macOS and Linux or via npm (npm install -g @mimo-ai/cli) on Windows.
The project is a fork of the open-source OpenCode agent, which Xiaomi has extended with its own memory architecture, workflow modes, and model harness.
The end of AI coding agents' amnesia?
As any avid vibe coder would surely attest, AI coding agents degrade over long working sessions: as the context window fills, earlier decisions, conventions, and task state get compacted away or lost entirely, forcing developers to re-explain their projects.
Xiaomi argues this approach is doomed at scale. "What we need is not better compression, but an explicit storage-and-retrieval mechanism that decides what information should be written into persistent structures, and when it should be recalled," the MiMo team noted in theirlaunch blog.
MiMo Code attacks this with a cross-session memory system, powered under the hood by SQLite FTS5 full-text search, that spans four layers: project memory (a persistent MEMORY.md file), session checkpoints, scratch notes, and per-task progress logs.
The note-taking is key, here: Rather than forcing the primary coding agent to pause its work to take notes, the system deploys an independent "checkpoint-writer" subagent.
Think of it the primary coding agent as a construction contractor working to build a massive mansion alongside a dedicated architect, the checkpoint-writer subagent. While the main agent focuses on building out the physical structure, the subagent updates the blueprints in real time, noting decisions, issues, and the actual lay of the land as the construction project progresses.
When the context window approaches its limits — the contractor gets lost in the half-built mansion — it can consult the subagent and find its place again. In the case of MiMo Code, the system simply rebuilds the environment from structured checkpoints with the relevant context, ensuring no loss of operational momentum.
Two self-improvement mechanisms round out the system: a /dream command that periodically (roughly every seven days) reviews historical sessions, deduplicates them, and compresses them into long-term memory, and a "distill" function that mines past sessions for repeated workflows that can be automated, following a similar approach taken recently by OpenAI and Anthropic with their various models.
Impressive performance on software engineering (SWE) benchmarks
According to benchmark figures published in Xiaomi's technical blog post, MiMo Code paired with MiMo-V2.5-Pro outperformed Claude Code paired with Claude Sonnet 4.6 on all three evaluations tested:

- SWE-bench Verified: 82% vs. 79%
- SWE-bench Pro: 62% vs. 55%
- Terminal Bench 2: 73% vs. 69%
The harness itself accounts for a measurable share of the gain. Running the same MiMo-V2.5-Pro model in both harnesses, MiMo Code scored 62% on SWE-bench Pro versus 57% for Claude Code, and 73% on Terminal Bench 2 versus 68% — roughly five points each, attributable purely to the agent system rather than the model.
Xiaomi notably did not publish comparisons against OpenAI's Codex or Google's Gemini CLI — Claude Code is the sole named competitor throughout its materials, a telling choice of benchmark target.
Independent reference points suggest why. On the official Terminal-Bench 2.0 leaderboardmaintained at tbench.ai, OpenAI's Codex CLI running GPT-5.5 scores 82.2% — roughly nine points above MiMo Code's self-reported 73% — and OpenAI's own GPT-5.5 announcement claims 82.7% on the same benchmark.
On SWE-Bench Pro, however, the picture flips: OpenAI reports GPT-5.5 at 58.6%, below MiMo Code + MiMo-V2.5-Pro's claimed 62%. (MiMo Code does not yet appear on either official leaderboard, and cross-comparing self-run numbers against leaderboard submissions carries the usual configuration caveats.)
Perhaps more interesting than the offline benchmarks: Xiaomi says it ran a human double-blind A/B evaluation during its internal beta, covering 576 developers working in 474 real private repositories, producing 1,213 judged head-to-head pairs against Claude Code using the same target model.
Under 200 execution steps, the two systems split roughly 50/50 — but past 200 steps, MiMo Code's win rate rose above 65%, supporting the company's thesis that its memory and state-management architecture pays off specifically on long-horizon work.
Xiaomi itself concedes the standard benchmarks "still measure one-shot problem-solving ability" and don't capture the tool's multi-session design goals.
As always, these are vendor self-reported numbers that haven't been independently verified, and head-to-head harness comparisons are sensitive to configuration. But the claims are consistent with a broader industry pattern: scaffolding and harness engineering are becoming as important as raw model capability in agentic coding performance.
Easy integration with existing developer systems and voice control
From a user experience standpoint, MiMo Code is designed to live where developers already work. It operates directly in the terminal, reading and writing files, running commands, and managing Git.
Out of the box, the tool requires zero configuration, connecting automatically to "MiMo Auto"—a free-for-a-limited-time channel powered by Xiaomi’s multimodal MiMo V2.5 model, which boasts a massive million-token context window. For developers migrating from existing environments, the transition is frictionless: MiMo Code automatically imports MCP servers, custom skills, and API configurations from Claude Code.
Other noteworthy features include:
- Compose mode: Pressing Tab switches the agent into a specification-driven workflow in which the developer describes a high-level goal and the system autonomously executes the full development cycle — design, planning, coding, testing, and review — following what Xiaomi describes as a "heavy planning upfront, stable verification later" strategy.
- Voice control: Built on Xiaomi's MiMo-ASR speech recognition with TenVAD voice activity detection, developers can dictate and modify instructions verbally and speak commands like "send" and "execute" for fully hands-free operation (available for logged-in users).
According to Xiaomi, the gains from the agent harness itself are measurable. Running the same underlying MiMo model in both harnesses, the company says MiMo Code scored 62% on SWE-Bench Pro versus 57% for Claude Code, and 73% on Terminal Bench 2 versus Claude Code's 68% — roughly five percentage points better on each, attributable purely to the agent system rather than the model.
As always, these are vendor self-reported numbers that haven't been independently verified, and head-to-head harness comparisons are sensitive to configuration. But the claim is consistent with a broader industry pattern: scaffolding and harness engineering are becoming as important as raw model capability in agentic coding performance.
Aggressively affordable
The bigger lure for many developers may be what's bundled in.
MiMo Code ships with "MiMo Auto," a zero-configuration channel offering free, limited-time access to MiMo-V2.5 — the natively multimodal model Xiaomi released in late April 2026, a sparse mixture-of-experts design with 310 billion total parameters (just 15 billion active per inference) and a 1 million token context window, which the company positions as matching Anthropic's Claude Sonnet 4.6 in multimodal agentic work.
As VentureBeat reported when the MiMo-V2.5 family launched in April, the models are MIT-licensed and among the most efficient and affordable available for agentic tasks.
The larger MiMo-V2.5-Pro — a 1.02-trillion-parameter mixture-of-experts model with 42 billion active parameters and a hybrid-attention architecture — led the open-source field on Xiaomi's ClawEval agentic benchmark with a 63.8% success rate while consuming only about 70,000 tokens per trajectory, roughly 40–60% fewer than Anthropic's Claude Opus 4.6, Google's Gemini 3.1 Pro, or OpenAI's GPT-5.4 needed for comparable results.
Notably, the V2.5-Pro's post-training was explicitly designed to instill "harness awareness" — training the model to manage its own memory and context within agent scaffolds like Claude Code or OpenCode — making a Xiaomi-built harness optimized around that capability a logical next step.
Pricing is similarly aggressive: MiMo-V2.5 starts at $0.40 per million input tokens and $2.00 per million output tokens, while V2.5-Pro runs $1.00/$3.00 per million (input/output) up to 256K context, doubling beyond that, with cache hits dropping input costs to as little as $0.20–$0.40 per million, making it among the cheapest frontier models available globally.
VentureBeat Frontier AI Model API Pricing Snapshot
Model
Input
Output
Total Cost
Source
MiMo-V2.5 Flash
$0.10
$0.30
$0.40
deepseek-v4-flash
$0.14
$0.28
$0.42
deepseek-v4-pro
$0.435
$0.87
$1.305
MiniMax-M3
$0.30
$1.20
$1.50
Gemini 3.1 Flash-Lite
$0.25
$1.50
$1.75
Qwen3.7-Plus
$0.40
$1.60
$2.00
MiMo-V2.5
$0.40
$2.00
$2.40
Grok 4.3 (low context)
$1.25
$2.50
$3.75
MiMo-V2.5 Pro (≤256K)
$1.00
$3.00
$4.00
GLM-5
$1.00
$3.20
$4.20
Kimi-K2.6
$0.95
$4.00
$4.95
GLM-5.1
$1.40
$4.40
$5.80
Grok 4.3 (high context)
$2.50
$5.00
$7.50
MiMo-V2.5 Pro (>256K)
$2.00
$6.00
$8.00
****Xiaomi MiMo
Qwen3.7-Max
$2.50
$7.50
$10.00
Gemini 3.5 Flash
$1.50
$9.00
$10.50
Gemini 3.1 Pro Preview (≤200K)
$2.00
$12.00
$14.00
GPT-5.4
$2.50
$15.00
$17.50
Gemini 3.1 Pro Preview (>200K)
$4.00
$18.00
$22.00
Claude Opus 4.8
$5.00
$25.00
$30.00
GPT-5.5
$5.00
$30.00
$35.00
Claude Fable 5 / Claude Mythos 5
$10.00
$50.00
$60.00
For developers who don't want Xiaomi's models at all, MiMo Code also supports third-party backends — including token plans from DeepSeek, Moonshot's Kimi, and Zhipu's GLM — along with any OpenAI-compatible API, mirroring the bring-your-own-model flexibility of its OpenCode parent.
Terminal AI coding agent wars go global
MiMo Code lands in an increasingly crowded field of terminal-based coding agents: Anthropic's Claude Code, OpenAI's Codex CLI, Google's Gemini CLI, and open-source players like OpenCode and Aider.
What's new is the entrant. Xiaomi — the world's third-largest smartphone maker, with a fast-growing EV business — has been methodically building its MiMo AI division since the release of the MiMo-7B reasoning model in April 2025, following with the MiMo-VL vision-language series, MiMo-V2-Flash, the 1-trillion-parameter MiMo-V2-Pro in March 2026, and the V2.5 flagship family in April.
The effort is led by Fuli Luo, a veteran of DeepSeek's disruptive R1 project, who has characterized Xiaomi's frontier push as a "quiet ambush" — and backed it with a 100-trillion free token grant for builders announced alongside the V2.5 launch.
The playbook is familiar from DeepSeek, Alibaba's Qwen, MiniMax, and Moonshot AI's Kimi series: release genuinely capable models and tooling under permissive licenses at a fraction of U.S. lab pricing, and convert the resulting developer mindshare into a durable ecosystem.
By pairing an open-source agent harness with a free frontier-class model, Xiaomi is effectively eliminating both the licensing and the usage cost of entry — at least for now.
What it means for enterprises and technical decision-makers
For engineering leaders, MiMo Code is a low-risk, potentially high-value evaluation candidate: MIT-style licensing permits modification and commercial integration, the OpenCode lineage means the architecture is inspectable, and the bring-your-own-model support means it can be pointed at an internally approved endpoint rather than Xiaomi's cloud.
The persistent memory system addresses a real and widely felt pain point in agentic development workflows — one that competitors are also racing to solve.
The countervailing considerations: the "free for a limited time" model access is by definition temporary and routes code context through Xiaomi's servers, which will be a non-starter for organizations with strict data-residency or IP policies; the benchmark edge over Claude Code is self-reported; and a V0.1.0 release number signals exactly what it suggests about maturity.
Teams subject to U.S. government procurement restrictions on Chinese technology vendors should also weigh that context before adopting.
関連記事
Moonshot AI、コーディング特化モデル「Kimi K2.7-Code」をリリースし、ベンチマークで前作より +21.8% の性能向上を達成
Moonshot AI は長期的なソフトウェアエンジニアリングに特化したエージェント型コードモデル「Kimi K2.7-Code」を公開した。このモデルは Hugging Face で利用可能であり、Kimi Code ベンチ v2 において前バージョン K2.6 よりも +21.8% の性能向上を示している。
NVIDIA、初のエージェント型 AI ベンチマークでコーディング性能において業界最高を達成
NVIDIA が実施した最初のエージェント型 AI ベンチマークにおいて、同社の技術が他の競合製品を上回るコーディング性能を示し、業界トップの成果を記録しました。
スーパーチャージャー構築:Rocket Close がエージェント型 AI でタイトル業務を最適化する方法
ロケット・カンパニーズ傘下のデトロイト拠点タイトル代理店 Rocket Close は、住宅購入プロセスのボトルネックとなっていた時間のかかる州固有のタイトル調査を、エージェント型 AI を活用することで効率化しました。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み