Mistral AI、Apache-2.0ライセンスのLean 4用コードエージェント「Leanstral 1.5」を公開しPutnamBenchで672問中587問を解決
Mistral AI は Lean 4 専門のコードエージェントモデル「Leanstral 1.5」を Apache-2.0 オープンソースで公開し、PutnamBench で 672 問中 587 問を解決する画期的な性能を示した。
キーポイント
圧倒的な定理証明性能
PutnamBench で 587/672 の正答率、miniF2F では 100% を達成し、既存のモデルを大幅に上回る SOTA レベルの結果を出した。
高度な MoE アーキテクチャと学習手法
119B パラメータのうち 6.5B を動的に使用する MoE 構造を採用し、CISPO による強化学習とマルチターン環境での反復学習でエージェント能力を強化した。
コスト効率性とオープンソース化
競合モデル(Opus 4.6 など)を上回る性能を発揮しつつ、問題解決あたりのコストが約 4 ドルと極めて低く抑えられ、重みは Apache-2.0 で公開された。
実環境での自律的動作能力
ファイルシステム操作や Bash コマンド実行、Lean サーバーとの連携を通じて、不完全な証明の補完や補助定理の構築を自律的に実行できる。
テスト時間スケーリングによる性能向上
1 問題あたりのトークン予算を増やすことで PutnamBench の解決数が劇的に向上し、400 万トークンで 587 問題を解決した。
実コードのバグ発見と証明支援
Rust コードから自動生成された不変条件を検証し、未報告の 11 の本格的なバグ(オーバーフローなど)を特定した。
Apache-2.0 ライセンスでの利用可能
Leanstral 1.5 は Apache-2.0 ライセンスで公開されており、Mistral Vibe CLI や vLLM を使用して無料でローカル展開が可能。
影響分析・編集コメントを表示
影響分析
このリリースは、形式検証や数学的証明の自動化において、商用モデルに匹敵する性能を持つオープンソースモデルが実現可能であることを明確に示しました。特に、高コストな計算リソースを必要とせず、特定のドメイン(Lean 4)で特化したエージェントとして機能することで、研究開発の民主化と加速に寄与します。
編集コメント
数学的証明の自動化において、オープンソースモデルが商用トップクラスの性能を凌駕する事例は極めて貴重です。特にコスト効率性の向上は、大規模な定理検証プロジェクトの実用化への道を開く画期的な一歩と言えます。
本日、Mistral AI は Leanstral 1.5 をリリースしました。これは Lean 4 向けに構築されたコードエージェントモデルです。このリリースは自動定理証明と証明工学を対象としています。重みは Apache 2.0 の下でオープンになっています。無料の API エンドポイント leanstral-1-5 が現在稼働しています。
Leanstral 1.5 は、以前の Leanstral-2603 モデルを更新したものです。これは Mistral Small 4 ファミリーに属します。
Leanstral 1.5 とは何か
Leanstral 1.5 は、証明支援機である Lean 4 向けのコードエージェントモデルです。証明支援機は、すべての論理的ステップを機械的に検証します。Lean 4 は、パーフェクトイド空間のようなオブジェクトや Rust フラグメントの性質などを表現できます。
アーキテクチャはエキスパート混合(Mixture-of-Experts: MoE)です。MoE は各トークンを少数の専門化されたサブネットワークにルーティングします。これにより、計算コストを低く抑えつつ、総容量を大きく維持しています。Leanstral は 128 のエキスパートを使用し、トークンあたり 4 つがアクティブになります。
総パラメータ数は 119B で、トークンあたりの活性化数は 6.5B です。コンテキスト長は 256k トークンです。入力はマルチモーダルで、テキストと画像を受け付けます。出力はテキストのみです。
Mistral は Leanstral 1.5 をどのように訓練したか
トレーニングは 3 つの段階で行われます。これらは中間トレーニング、教師あり微調整、そして CISPO(Contrastive Inverse Policy Optimization)を用いた強化学習です。2 つの強化学習環境がモデルのエージェント行動を形成しました。
マルチターン環境では、モデルに定理の記述が与えられます。モデルはそれを証明するか反証する必要があります。モデルは証明を提出し、Lean コンパイラのフィードバックを読み取ります。成功するまで、または予算を使い果たすまで試行錯誤して改善を行います。
コードエージェント環境において、Leanstral は生ファイルシステム内で動作します。ファイルの編集、bash コマンドの実行、そして Lean 言語サーバーの利用を行います。このサーバーは、目標(ゴール)、エラー、型情報をリアルタイムで公開しています。
これにより、不完全な証明の完成、補助的な補題の構築、および文脈圧縮(コンパクション)を通じた継続が可能になります。圧縮は以前の文脈を圧縮し、長時間のタスクでもウィンドウ内に収まるようにします。正しさは、Mistral がフォークした SafeVerify によって対象定理に対して検証されます。
ベンチマークとパフォーマンス
Mistral チームによると、Leanstral 1.5 は miniF2F で飽和状態に達しています。検証セットとテストセットの両方で 100% を達成しました。また、672 問ある PutnamBench の問題のうち 587 問を解決しています。
このモデルは、FATE-H および FATE-X 代数ベンチマークにおいて新たな最高記録(state-of-the-art)を樹立しました。Mistral が報告する数値では、FATE-H で 87%、FATE-X で 34% です。FLTEval では、pass@1 が 21.9 から 28.9 に上昇し、pass@8 は 31.9 から 43.2 に向上しました。
FLTEval は、フェルマーの最終定理リポジトリへの実際のプルリクエストから構築されています。これにおいて、Leanstral は Opus 4.6 の 39.6 を上回っており、そのコストは約七分の一です。また、オープンソースモデルに対するリードを広げ、サイズが三倍から十倍大きいモデルをも凌駕しています。pass@8 とは、問題ごとに最大八回の試行が可能であることを意味します。
ベンチマーク Leanstral 1.5 詳細
miniF2F (val + test) 100% Mistral によると飽和状態
PutnamBench 587 / 672 問題あたり約$4
FATE-H 87% 新しい最高記録
FATE-X 34% 新しい最高記録
FLTEval pass@1 28.9 21.9 から上昇
FLTEval pass@8 43.2 Opus 4.6 の 39.6 を上回る
PutnamBench において、Leanstral は Seed-Prover 1.5 の最高スコアを 7 問上回っています。これは問題あたり約 4 ドルというコストで達成されたものです。Mistral によると、Seed-Prover の高設定では問題あたり 300 ドル以上かかる可能性があります。
この設定は、問題あたり 10 H20-days(H20 デイ)の予算を消費します。Mistral はまた、Goedel-Architect や AxProverBase とも比較を行っています。同社によると、Aleph Prover のコストは問題あたり約 54 ドルから 68 ドル程度です。
テスト時のスケーリング(test-time scaling)がモデルの定義的な振る舞いです。試行あたりのトークン予算を引き上げると、PutnamBench の Pass@8 が向上します。Mistral チームによると、50k トークンで 44 問、200k で 244 問、1M で 493 問、そして 4M で 587 問を解決しています。以下のインタラクティブなエクスプローラーでは、同じ曲線に沿ってスクロールして確認できます。
(function(){
window.addEventListener("message",function(e){
if(e.data && e.data.type==="lsx-resize"){
var f=document.getElementById("leanstral-embed");
if(f && e.data.height){ f.style.height=e.data.height+"px"; }
}
});
})();
ケーススタディとユースケース
Leanstral は主に数学のトレーニングを行いましたが、コードの検証も可能です。Mistral チームはエンジニアにとって重要な 2 つのケーススタディを文書化しています。
まず、Leanstral は実際の AVL ツリー実装に対して O(log n) の時間計算量(time complexity)を証明しました。AVL ツリーは自己平衡型二分探索木です。この証明には構造帰納法と、TimeM モナド(monad)を用いたモノイックな時間追跡が用いられました。これは 22 回の圧縮(compaction)にわたって約 270 万トークンを消費して実行されました。その結果、高さ単位あたり約 48 ステップという上限と定数が導き出されました。
第二に、Leanstral はオープンソースコード内で実際のバグを発見しました。自動化されたパイプラインで Aeneas を使用して Rust から Lean へ変換し、Leanstral がユーザーの意図を推論して正しさのプロパティを生成しました。各プロパティに対して 4 回の試行を行い、その後その否定形にもさらに 4 回挑戦しました。
57 のリポジトリ全体で、47 の違反するプロパティと 11 の本物のバグが検出されました。そのうち 5 つは GitHub でこれまで報告されていませんでした。一つのバグは datrs/varinteger 内のジグザグ復号化における sign 関数に存在していました。入力として Std.U64.MAX を指定した際、式 (value + 1) がオーバーフローしました。これにより、デバッグモードではクラッシュが発生し、リリース版では静かなるデータ破損を引き起こしました。
これらの例から直接的に実用的なユースケースが導き出されます。開発チームはリポジトリ内で部分的な証明を完了させることができます。また、関数に対して自動的に正しさのプロパティを生成することも可能です。さらに、推論された不変条件の証明または反証を通じて Rust コードのストレステストを行うこともできます。
始め方:コードとデプロイメント
最も簡単な方法は Mistral Vibe、Mistral のエージェント CLI を利用することです。Leanstral は Mistral の無料プランで動作します。アカウントで「Labs models」を有効化し、API キーを作成してください。
Vibe をインストールし、Lean エージェントを追加して起動します:
コードをコピーしました別のブラウザを使用
1. Mistral Vibe のセットアップ
uv tool install mistral-vibe
uv tool update mistral-vibe
vibe --setup
2. vibe 内で Leanstral をインストールし、その後 vibe から抜ける
/leanstall
exit
3. Lean エージェントを起動
vibe --agent lean
セルフホスティングの場合は、vLLM 0.24.0 以降をインストールしてから重みを提供します:
コードをコピーしました別のブラウザを使用
mistral_common >= 1.11.5 を自動的にインストール
uv pip install -U vllm --torch-backend=auto
vllm serve mistralai/Leanstral-1.5-119B-A6B \
--max-model-len 200000 \
--tensor-parallel-size 4 \
--attention-backend FLASH_ATTN_MLA \
--tool-call-parser mistral \
--enable-auto-tool-choice \
--reasoning-parser mistral
OpenAI 互換クライアントを通じてサーバーを呼び出します。複雑なプロンプトには reasoning_effort を high に、速度重視の場合は none に設定してください:
Copy CodeCopiedUse a different Browser
from openai import OpenAI
OpenAI クライアントを vLLM サーバーに接続
client = OpenAI(api_key="EMPTY", base_url="")
TEMP = 1.0
MAX_TOK = 32000
REASONING = "high" # 高速な回答には 'none' に切り替え
model = client.models.list().data[0].id
messages = [
{"role": "user", "content": [
{"type": "text", "text": "Lean 4 における帰納的命題として遷移ルールを定義してください。"}
]},
]
response = client.chat.completions.create(
model=model,
messages=messages,
temperature=TEMP,
max_tokens=MAX_TOK,
reasoning_effort=REASONING,
)
print(response.choices[0].message.content)
print(response.choices[0].message.reasoning)
Leanstral は OpenAI 形式のツール呼び出しもサポートしています。lean_run_code のような関数を公開してスニペットをコンパイルすることも可能です。Mistral 社は、より密接な Lean 統合のために lean-lsp-mcp サーバーの利用も推奨しています。
キーポイント
Leanstral 1.5 は、Apache-2.0 ライセンスの無料な Lean 4 証明工学モデルです。
119B の混合専門家 (MoE: mixture-of-experts) アーキテクチャを採用し、6.5B のアクティブパラメータを使用します。
miniF2F を完全に満たし、672 問中 587 問の PutnamBench 問題を解決します。
オープンソースリポジトリ全体で 5 つの未報告バグを発見しました。
Hugging Face の重みファイル、無料 API、またはローカルの vLLM を通じてアクセス可能です。
Mistral AI の発表、Leanstral 1.5 モデルカード、および Hugging Face ページをご覧ください。また、Twitter でフォローしていただくことも歓迎です。忘れずに 150k+ML SubReddit に参加し、ニュースレターも購読してください。待ってください!Telegram をご利用ですか?今なら Telegram でも私たちに参加できます。
GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションでパートナーシップを結ぶ必要がある場合は、ご連絡ください。
本記事「Mistral AI Releases Leanstral 1.5: An Apache-2.0 Lean 4 Code Agent Model Solving 587 of 672 PutnamBench Problems」は、MarkTechPost で最初に公開されました。
原文を表示
Today, Mistral AI released Leanstral 1.5. It is a code agent model built for Lean 4. The release targets automated theorem proving and proof engineering. Weights are open under Apache 2.0. A free API endpoint, leanstral-1-5, is now live.
Leanstral 1.5 updates the earlier Leanstral-2603 model. It belongs to the Mistral Small 4 family.
What is Leanstral 1.5
Leanstral 1.5 is a code agent model for Lean 4, a proof assistant. A proof assistant checks every logical step mechanically. Lean 4 can express objects like perfectoid spaces and properties of Rust fragments.
The architecture is a mixture-of-experts, or MoE. An MoE routes each token to a few specialized sub-networks. This keeps compute low while total capacity stays large. Leanstral uses 128 experts, with 4 active per token.
Total size is 119B parameters, with 6.5B activated per token. Context length is 256k tokens. Input is multimodal, accepting text and image. Output is text only.
How Mistral Trained Leanstral 1.5
Training runs in three stages. These are mid-training, supervised fine-tuning, then reinforcement learning with CISPO. Two reinforcement-learning environments shaped the model’s agentic behavior.
In the multiturn environment, the model receives a theorem statement. It must prove or disprove it. It submits a proof, then reads Lean compiler feedback. It refines across attempts until it succeeds or exhausts its budget.
In the code agent environment, Leanstral works inside a raw filesystem. It edits files, runs bash commands, and uses the Lean language server. That server exposes goals, errors, and type information in real time.
This lets it complete partial proofs, build auxiliary lemmas, and persist through context compaction. Compaction compresses earlier context so long tasks still fit the window. Correctness is verified by Mistral’s fork of SafeVerify against target theorems.
Benchmarks and Performance
Mistral team reports that Leanstral 1.5 saturates miniF2F. It reaches 100% on both the validation and test sets. It solves 587 of 672 PutnamBench problems.
The model sets a new state-of-the-art on the FATE-H and FATE-X algebra benchmarks. Mistral lists 87% on FATE-H and 34% on FATE-X. On FLTEval, pass@1 rises from 21.9 to 28.9. Pass@8 rises from 31.9 to 43.2.
FLTEval is built from real pull requests to the Fermat’s Last Theorem repository. On it, Leanstral surpasses Opus 4.6’s 39.6 at one-seventh the cost. It also widens its lead over open-source models three to ten times larger. Pass@8 means eight attempts are allowed per problem.
BenchmarkLeanstral 1.5Detail
miniF2F (val + test)100%Saturated, per Mistral
PutnamBench587 / 672~$4 per problem
FATE-H87%New state-of-the-art
FATE-X34%New state-of-the-art
FLTEval pass@128.9Up from 21.9
FLTEval pass@843.2Beats Opus 4.6’s 39.6
On PutnamBench, Leanstral edges Seed-Prover 1.5 high by 7 problems. It does so at about $4 per problem. Mistral estimates Seed-Prover’s high setting near $300 or more per problem.
That setting runs a budget of 10 H20-days per problem. Mistral also compares against Goedel-Architect and AxProverBase. It notes Aleph Prover costs roughly $54 to $68 per problem.
Test-time scaling is the model’s defining behavior. Raising the token budget per attempt lifts PutnamBench Pass@8. Mistral team reports 44 solved at 50k, 244 at 200k, 493 at 1M, and 587 at 4M. The interactive explorer below lets you scrub across that same curve.
(function(){
window.addEventListener("message",function(e){
if(e.data && e.data.type==="lsx-resize"){
var f=document.getElementById("leanstral-embed");
if(f && e.data.height){ f.style.height=e.data.height+"px"; }
}
});
})();
Case Studies and Use Cases
Leanstral trained mainly on mathematics, but it also verifies code. Mistral team documents two case studies that matter for engineers.
First, Leanstral proved O(log n) time complexity for a real AVL tree implementation. AVL trees are self-balancing binary search trees. The proof used structural induction and monadic time tracking via the TimeM monad. It ran over 2.7 million tokens across 22 compactions. It established a bound near 48 steps per height unit, plus a constant.
Second, Leanstral found real bugs in open-source code. An automated pipeline used Aeneas to translate Rust into Lean. Leanstral inferred user intent and generated correctness properties. It attempted each property in four tries, then the negation in four more.
Across 57 repositories, it flagged 47 violated properties and 11 genuine bugs. Five were previously unreported on GitHub. One bug sat in the sign function for zigzag decoding in datrs/varinteger. On input Std.U64.MAX, the expression (value + 1) overflowed. That caused crashes in debug mode and silent corruption in release.
Practical use cases follow directly from these examples. Dev teams can complete partial proofs inside a repository. They can generate correctness properties for a function automatically. They can stress-test Rust code by proving or disproving inferred invariants.
Getting Started: Code and Deployment
The simplest path is Mistral Vibe, Mistral’s agent CLI. Leanstral runs on Mistral’s free plan. Enable ‘Labs models’ in your account, then create an API key.
Install Vibe, add the Lean agent, then launch it:
Copy CodeCopiedUse a different Browser
1. Set up Mistral Vibe
uv tool install mistral-vibe
uv tool update mistral-vibe
vibe --setup
2. Inside vibe, install Leanstral, then leave vibe
/leanstall
exit
3. Launch the Lean agent
vibe --agent lean
For self-hosting, install vLLM 0.24.0 or newer, then serve the weights:
Copy CodeCopiedUse a different Browser
Installs mistral_common >= 1.11.5 automatically
uv pip install -U vllm --torch-backend=auto
vllm serve mistralai/Leanstral-1.5-119B-A6B \
--max-model-len 200000 \
--tensor-parallel-size 4 \
--attention-backend FLASH_ATTN_MLA \
--tool-call-parser mistral \
--enable-auto-tool-choice \
--reasoning-parser mistral
Call the server through the OpenAI-compatible client. Set reasoning_effort to high for complex prompts, or none for speed:
Copy CodeCopiedUse a different Browser
from openai import OpenAI
Point the OpenAI client at your vLLM server
client = OpenAI(api_key="EMPTY", base_url="<your-host-url>")
TEMP = 1.0
MAX_TOK = 32000
REASONING = "high" # switch to 'none' for faster answers
model = client.models.list().data[0].id
messages = [
{"role": "user", "content": [
{"type": "text", "text": "Define the transition rules as an inductive proposition in Lean 4."}
]},
]
response = client.chat.completions.create(
model=model,
messages=messages,
temperature=TEMP,
max_tokens=MAX_TOK,
reasoning_effort=REASONING,
)
print(response.choices[0].message.content)
print(response.choices[0].message.reasoning)
Leanstral also supports OpenAI-style tool calling. You can expose a function such as lean_run_code to compile snippets. Mistral further recommends the lean-lsp-mcp server for tighter Lean integration.
Key Takeaways
Leanstral 1.5 is a free, Apache-2.0 Lean 4 proof-engineering model.
It uses a 119B mixture-of-experts with 6.5B active parameters.
It saturates miniF2F and solves 587 of 672 PutnamBench problems.
It found 5 previously unreported bugs across open-source repositories.
Access it via Hugging Face weights, a free API, or local vLLM.
Check out the Mistral AI announcement, Leanstral 1.5 model card, and the Hugging Face.. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.
Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us
The post Mistral AI Releases Leanstral 1.5: An Apache-2.0 Lean 4 Code Agent Model Solving 587 of 672 PutnamBench Problems appeared first on MarkTechPost.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み