AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
MarkTechPost·2026年6月24日 08:43·約10分で読める

Mistral OCR 4 が引用対応の構造化出力を RAG、エージェント型、企業検索パイプラインに提供

#RAG#OCR#Document AI#Mistral OCR#エンタープライズ検索
TL;DR

Mistral AI が公開した OCR 4 は、単なる文字抽出を超え、構造化データと信頼性スコアを提供することで RAG やエンタープライズ検索パイプラインの精度を劇的に向上させる新モデルである。

AI深層分析2026年6月24日 09:02
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

構造化出力機能の強化

抽出テキストに加え、Bounding Box(位置情報)、ブロック分類(見出し・表など)、単語レベルの信頼度スコアを同時に返すことで、出典根拠や編集プロセスを可能にする。

2

多言語対応と独自評価での勝利

170 言語に対応し、独立した注釈者による比較テストで競合他社に対し平均 72% の勝率を記録した。

3

エンタープライズ向け展開とコスト効率

単一コンテナでの完全自己ホスティングが可能で、データ主権やコンプライアンスに対応。競合より 8 倍低いコストや 4 倍高速な処理を実現する事例も報告されている。

4

構造化出力による多様なワークロード対応

信頼スコアとブロックタイプを統合した出力により、RAG の検索単位最適化、エージェントの文書操作、およびエンタープライズ検索パイプラインでの自動検証が実現されます。

5

単一エンドポイントでの柔軟な運用

純粋な抽出モードとドメイン固有スキーマへの整形を行う Document AI モードを同じ API エンドポイントで切り替え可能にし、用途に応じてコストと処理能力を最適化できます。

6

明確な利用範囲の制限

文書理解モデルとして設計されており、医療診断や法的判断など高リスクな意思決定や、音声・動画などの非ドキュメント入力には使用できないと明記されています。

7

構造化出力と詳細な信頼スコア

OCR 4 はブロックタイプ、バウンディングボックス、HTML/Markdown 形式のテーブルを JSON として返すほか、人間によるレビューパイプライン向けに単語レベルの信頼度スコア(word_confidence_scores)を提供します。

影響分析・編集コメントを表示

影響分析

このリリースは、OCR を単なるテキスト化ツールから、AI エージェントや検索システムが文書の構造と信頼性を理解できる「知能型インジェスト層」へと進化させる転換点となります。特に RAG システムにおけるハルシネーション防止と、企業データ管理のコンプライアンス対応において、実務レベルでの即効性のある影響を与えるでしょう。

編集コメント

従来の OCR との決定的な違いは、出力されるデータに「位置情報」と「信頼度」が含まれる点にあります。これにより、AI が文書内の情報を引用する際の根拠付けが飛躍的に容易になり、実務での採用加速が期待されます。

本日、Mistral AI はドキュメント理解モデルの最新バージョンである OCR 4 をリリースしました。この新リリースでは、抽出されたテキストに加え、バウンディングボックス、ブロック分類、インライン信頼度スコアが追加されました。10 の言語グループにわたる 170 か国語に対応し、完全なセルフホストデプロイメントのために単一のコンテナで動作します。OCR 4 はまた、エンタープライズ検索、RAG(Retrieval-Augmented Generation)、およびドメイン固有の検索パイプラインのためのインgestion コンポーネントとしても機能します。

TL;DR

OCR 4 はテキストだけでなく、バウンディングボックス、タイプされたブロックラベル、単語ごとの信頼度スコアを返します。

10 のグループにわたる 170 か国語に対応し、希少言語やリソースが限られた言語において性能向上が見られます。

独立した注釈作成者たちは、テストされたすべてのシステムに対して OCR 4 を好ましく評価し、平均して 72% の勝率を記録しました。

料金は 1,000 ページあたり 4 ドルで、Batch-API(バッチ API)割引を利用すると 2 ドルになります。

単一のエンドポイントが、生データ抽出とスキーマ駆動型の Document AI 出力の両方を処理します。

Mistral OCR 4

Mistral OCR 4 は、幅広い種類のドキュメントからコンテンツを抽出し構造化します。以前の世代は、ページをクリーンなテキストやテーブルに変換することに焦点を当てていました。一方、OCR 4 は文書全体の構造化表現を返します。

各ブロックはバウンディングボックスで位置特定され、タイプ別に分類されます。ブロックの種類には、タイトル、表、数式、署名などが含まれます。信頼度スコアはページごとおよび単語ごとにインラインで生成されます。

したがって、下流システムは文書の内容だけでなく、各要素の位置、その役割、モデルの信頼度についても学習します。この追加のコンテキストは、引用、削除、人間による検証において重要です。

OCR 4 は、PDF、DOC、PPT、OpenDocument を含む一般的なエンタープライズ形式に対応しています。このモデルはコンパクトであり、単一のコンテナ内でデプロイ可能です。データ所在地とコンプライアンスのため、エンタープライズ顧客向けにセルフマネージドデプロイメントが利用可能です。

ベンチマーク

Mistral は OCR 4 を、AI ネイティブ OCR モデル、最先端の汎用モデル、エンタープライズ文書サービス、および Mistral OCR 3 と比較しました。

多数の独立した注釈者が、テストされたすべての主要システムに対して OCR 4 を選択しました。比較セット全体での勝率は平均 72% に達しました。評価には、第三者ベンダーから提供された 12 以上の言語にわたる 600 件以上の文書が使用されました。注釈者は、文書ごとに各競合他社の出力を OCR 4 の出力と比較してランク付けを行いました。

自動化されたベンチマークでは、OCR 4 は公開されている OlmOCRBench で 85.20 を記録しました。OmniDocBench では 93.07、Mistral の内部 Crawl Multilingual 評価では 0.98 を記録しました。

2 つの顧客データポイントが文脈を追加します。Rogo は、主要なエージェント型パーサーと比較して、同等の精度を約 8 分の 1 のコストと 17 分の 1 のレイテンシで達成したと報告しています。Anaqua は、既存のプロバイダーと比較してページあたり約 4 倍高速であると測定しました。

セグメンテーション、単なるテキストではない

バウンディングボックスは Mistral で最も要望の多かった機能です。これにより、コンテキスト内のハイライトや信頼性の高いデータパイプラインのためにテキストをローカライズできます。

ブロックタイプと信頼度スコアは異なる役割を担います。これらは、ソースに根ざした引用、削除、人間による検証(ヒューマン・イン・ザ・ループ)を駆動します。この構造は、いくつかのダウンストリームワークロードをサポートしています。

クリーンで分類されたブロックは、RAG におけるより優れた検索単位となります。エージェントは文書を読み取るだけでなく、操作するための構造的プリミティブを獲得します。コネクタは、取り込みとインデックス化のために一貫性のある型付き出力を受け取ります。

OCR 4 はまた、現在パブリックプレビュー中の Mistral Search Toolkit の取り込みコンポーネントでもあります。Search Toolkit は、Mistral が提供するオープンソースで構成可能な検索フレームワークです。その構造化された出力は、検索および評価ワークフローに対して引用準備が整った入力供給します。

ユースケースと例

OCR 4 は、高ボリュームパイプラインと対話型ドキュメントワークフローの両方をサポートしています。

ドキュメント解析と抽出:多言語契約書をインデックス化用のクリーンで構造化されたマークダウンに変換します。

検索拡張生成(RAG):分類されたブロックを Search Toolkit に供給し、引用付きでソースに根ざした回答を取得します。

エージェントワークフロー:請求書処理用エージェントに対して、フォームを自動的に記入するための型付きフィールドとバウンディングボックスを提供します。

信頼度ゲート付きパイプライン:低信頼度の領域を人間による検証者にルーティングし、それ以外は自動承認します。

エンタープライズ検索:OCR 4 をデータソースコンポーネントとして使用し、アーカイブ全体での取り込みとエンティティ抽出を行います。

初期ユーザーは、請求書を構造化されたフィールドに変換したり、企業のアーカイブをデジタル化するために OCR 4 を適用しています。他のユーザーは、技術報告書からクリーンなテキストを抽出したり、エンタープライズ検索のパワーソースとして活用しています。

Mistral 公式リリースからの範囲に関する注記:OCR 4 は文書理解モデルであり、意思決定を行うものではありません。医療診断、法的判断、あるいは高リスクの金融決断を目的としたものではなく、安全性が重要なシステムやリアルタイム処理、生音声や動画といった非文書入力には適していません。

比較:純粋な抽出 vs 文書 AI

OCR 4 は単一の API エンドポイントを通じて提供されます。すべてのリクエストで同じモデルが実行され、常に抽出されたコンテンツ、バウンディングボックス、ブロックタイプ、信頼度スコア、および Markdown が返されます。異なるのは、その上にどのようなレイヤーを追加するかです。

機能 | 純粋な抽出モード | 文書 AI モード(同一エンドポイント)

出力 | Markdown、バウンディングボックス、ブロックタイプ、信頼度 | ユーザーが定義するスキーマ内の構造化 JSON

動作原理 | 生の OCR レスポンス | OCR 出力を mistral-small-2603 に供給

画像注釈 | 適用されない | スキーマに基づく画像ごとのビジョン・ランゲージ呼び出し

カスタムプロンプト | なし | あり(解釈や要約をガイド)

最適な用途 | パイプライン、エージェント、バッチ取り込み | ビジネスユーザー、パイロット、パースロジック不要

価格 | $4 / 1,000 ページ($2 バッチ) | $5 / 1,000 ページ

セルフホスティング | エンタープライズ向け利用可能 | エンタープライズ向け利用可能

意思決定のルールは単純です。生の抽出コンテンツが必要であれば、OCR 4 をそのまま使用してください。出力をスキーマに再整形するか、ドメイン固有フィールドで注釈付けする必要がある場合は、同じ呼び出しに文書 AI パラメータを追加します。

API の利用方法

基本的な抽出では、ドキュメントの URL を指定し、構造化されたページが返されます。include_blocks=True を設定すると、型付きブロックとバウンディングボックスを取得できます。

コピーコード

コピー済み

別のブラウザを使用する

import os

from mistralai.client import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

ocr_response = client.ocr.process(

model="mistral-ocr-latest",

document={

"type": "document_url",

"document_url": "https://arxiv.org/pdf/2201.04234"

},

include_blocks=True, # タイプ付きブロックとバウンディングボックスを含む

table_format="html", # None(インライン)、"markdown"、または"html"

include_image_base64=True

)

レスポンスはページ配列を持つ JSON オブジェクトです。各ページにはマークダウン、画像、テーブル、ハイパーリンク、寸法、および信頼度スコアが含まれています。人間のレビューパイプラインを制御するには、単語ごとの信頼度をリクエストしてください。

コピーコード

コピー済み

別のブラウザを使用する

ocr_response = client.ocr.process(

model="mistral-ocr-latest",

document={"type": "document_url",

"document_url": "https://arxiv.org/pdf/2201.04234"},

confidence_scores_granularity="word" # 集計には"page"も使用可能

)

"word"設定により、各ページおよび各テーブルエントリに単語ごとの信頼度スコア配列が追加されます。大量のジョブの場合、Mistral はページあたりのコストを半減させるバッチ推論サービス(Batch Inference service)を推奨しています。

試してみる:インタラクティブ出力エクスプローラー

以下に埋め込まれたものは、OCR 4 の構造化出力を可視化したものです。サンプルドキュメント間で切り替えたり、バウンディングボックスやブロックタイプをオンオフしたり、信頼度ヒートマップを有効化したりできます。Markdown タブと JSON タブでは、2 つの出力形式が並べて表示されます。サンプルデータは例示用であり、実際の API 呼び出しではありません。

(function(){

window.addEventListener('message',function(e){

if(e.data&&e.data.mocr4Height){

var f=document.getElementById('mocr4-frame');

if(f){f.style.height=e.data.mocr4Height+'px';}

}

});

})();

Mistral OCR 4 の発表、OCR 4 モデルカード、OCR プロセッサのドキュメントをご覧ください。また、Twitter でフォローすることもできますし、150,000 人以上が参加する ML サブレディットに参加したり、ニュースレターを購読したりするのもお忘れなく。待ってください!Telegram をお使いですか?今なら Telegram でも私たちに参加いただけます。

GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションのためにパートナーシップをご検討の場合は、ご連絡ください。

出典:Mistral OCR 4 の発表、OCR 4 モデルカード、OCR プロセッサのドキュメント。

本記事「Mistral OCR 4 が RAG、エージェント型、およびエンタープライズ検索パイプラインに引用対応型の構造化出力をもたらす」は、MarkTechPost で最初に公開されました。

原文を表示

Today, Mistral AI released OCR 4, its latest document-understanding model. This new release adds bounding boxes, block classification, and inline confidence scores alongside extracted text. It supports 170 languages across 10 language groups and runs in a single container for fully self-hosted deployments. OCR 4 also serves as an ingestion component for enterprise search, RAG, and domain-specific retrieval pipelines.

TL;DR

OCR 4 returns bounding boxes, typed-block labels, and per-word confidence scores, not just text.

It supports 170 languages across 10 groups, with gains on rare and low-resource languages.

Independent annotators preferred OCR 4 over every system tested, averaging 72% win rates.

Pricing is $4 per 1,000 pages, dropping to $2 with the Batch-API discount.

One endpoint serves both raw extraction and schema-driven Document AI output.

Mistral OCR 4

Mistral OCR 4 extracts and structures content from a wide range of documents. Previous generations focused on converting a page into clean text and tables. OCR 4 instead returns a structured representation of the whole document.

Each block is localized with a bounding box and classified by type. Block types include titles, tables, equations, signatures, and more. Inline confidence scores are generated per-page and per-word.

Downstream systems therefore learn more than what a document says. They also learn where each element sits, what role it plays, and how confident the model is. That extra context matters for citations, redactions, and human-in-the-loop verification.

OCR 4 accepts common enterprise formats, including PDF, DOC, PPT, and OpenDocument. The model is compact enough to deploy in a single container. Self-managed deployment is available to enterprise customers for data residency and compliance.

Benchmark

Mistral compared OCR 4 against AI-native OCR models, frontier general-purpose models, enterprise document services, and Mistral OCR 3.

A number of independent annotators preferred OCR 4 over every leading system tested. Win rates averaged 72% across the comparison set. The evaluation used 600+ documents across 12+ languages, sourced from third-party vendors. Annotators ranked each competitor’s output against OCR 4’s, document by document.

On automated benchmarks, OCR 4 scored 85.20 on the public OlmOCRBench. It scored 93.07 on OmniDocBench and .98 on Mistral’s internal Crawl Multilingual evaluation.

Two customer data points add context. Rogo reported equivalent accuracy at roughly 8x lower cost and 17x lower latency versus leading agentic parsers. Anaqua measured roughly 4x faster per page than its incumbent provider.

Segmentation, Not Just Text

Bounding boxes were Mistral’s most-requested capability. They localize text for in-context highlighting and reliable data pipelines.

Block types and confidence scores serve different jobs. They drive source-grounded citations, redactions, and human-in-the-loop verification. This structure supports several downstream workloads.

Clean, classified blocks become better retrieval units for RAG. Agents gain structural primitives to act on documents, not just read them. Connectors receive consistent, typed output for ingestion and indexing.

OCR 4 is also an ingestion component of Mistral Search Toolkit, now in public preview. Search Toolkit is Mistral’s open-source, composable search framework. Its structured output supplies citation-ready inputs to retrieval and evaluation workflows.

Use Cases With Examples

OCR 4 supports both high-volume pipelines and interactive document workflows.

Document parsing and extraction: Turn a multilingual contract into clean, structured markdown for indexing.

Retrieval-Augmented Generation (RAG): Feed classified blocks into Search Toolkit for source-grounded answers with citations.

Agentic workflows: Give an invoice-processing agent typed fields and bounding boxes to fill forms automatically.

Confidence-gated pipelines: Route low-confidence regions to human verifiers, and auto-approve the rest.

Enterprise search: Use OCR 4 as a data-source component for ingestion and entity extraction across an archive.

Early users apply OCR 4 to turn invoices into structured fields and digitize company archives. Others extract clean text from technical reports or power enterprise search.

A note on scope from Mistral official release: OCR 4 is a document-understanding model, not a decision-maker. It is not intended for medical diagnosis, legal judgment, or high-stakes financial decisions. It is also unsuited to safety-critical systems, real-time processing, or non-document inputs like raw audio or video.

Comparison: Pure Extraction vs Document AI

OCR 4 ships behind a single API endpoint. Every request runs the same model. It always returns extracted content, bounding boxes, block types, confidence scores, and markdown. What varies is how much you layer on top.

CapabilityPure Extraction ModeDocument AI Mode (same endpoint)

OutputMarkdown, bboxes, block types, confidenceStructured JSON in a schema you define

How it worksRaw OCR responseOCR output fed to mistral-small-2603

Image annotationNot appliedPer-image vision-language call on schema

Custom promptNoYes, guides interpretation or summary

Best forPipelines, agents, batch ingestionBusiness users, pilots, no parsing logic

Price$4 / 1,000 pages ($2 batch)$5 / 1,000 pages

Self-hostingAvailable for enterpriseAvailable for enterprise

The decision rule is simple. Need raw extracted content? Use OCR 4 as-is. Need the output reshaped into a schema or annotated with domain fields? Add the Document AI parameters to the same call.

Working With the API

Basic extraction takes a document URL and returns structured pages. Set include_blocks=True to get the typed blocks and bounding boxes.

Copy CodeCopiedUse a different Browser

import os

from mistralai.client import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

ocr_response = client.ocr.process(

model="mistral-ocr-latest",

document={

"type": "document_url",

"document_url": "https://arxiv.org/pdf/2201.04234"

},

include_blocks=True, # typed blocks + bounding boxes

table_format="html", # None (inline), "markdown", or "html"

include_image_base64=True

)

The response is a JSON object with a pages array. Each page carries markdown, images, tables, hyperlinks, dimensions, and confidence_scores. To gate a human-review pipeline, request per-word confidence.

Copy CodeCopiedUse a different Browser

ocr_response = client.ocr.process(

model="mistral-ocr-latest",

document={"type": "document_url",

"document_url": "https://arxiv.org/pdf/2201.04234"},

confidence_scores_granularity="word" # or "page" for aggregates

)

The "word" setting adds a word_confidence_scores array per page and per table entry. For high-volume jobs, Mistral recommends the Batch Inference service, which halves the per-page cost.

Try It: Interactive Output Explorer

The embed below visualizes OCR 4’s structured output. Switch between sample documents, toggle bounding boxes and block types, and turn on the confidence heatmap. The Markdown and JSON tabs show the two output shapes side by side. The sample data is illustrative, not a live API call.

(function(){

window.addEventListener('message',function(e){

if(e.data&&e.data.mocr4Height){

var f=document.getElementById('mocr4-frame');

if(f){f.style.height=e.data.mocr4Height+'px';}

}

});

})();

Check out the Mistral OCR 4 announcement, OCR 4 model card, and OCR Processor docs. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.

Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us

Sources: Mistral OCR 4 announcement, OCR 4 model card, OCR Processor docs.

The post Mistral OCR 4 Brings Citation-Ready Structured Output to RAG, Agentic, and Enterprise Search Pipelines appeared first on MarkTechPost.

この記事をシェア

関連記事

MarkTechPost★42026年6月24日 18:21

Nous Research、Hermes エージェントのスキルシステムに「/learn」機能を追加、手書きなしでワークフローをスラッシュコマンドとして記録可能に

Nous Research はオープンソースの自己改善型エージェント「Hermes Agent」のスキルシステムを拡張し、「/learn」という新コマンドを追加した。これにより、ユーザーはドキュメントやコードなどの資料を指定するだけで、エージェントが自動的に再利用可能なスキル定義ファイル(SKILL.md)を作成できるようになった。

TLDR AI★42026年6月24日 09:00

間接プロンプトインジェクションに関する洞察(12 分読了)

TLDR AI が、AI モデルが外部データから悪意ある指示を誤って受け取る「間接プロンプトインジェクション」の仕組みと対策について解説した。

TechCrunch AI★42026年6月24日 02:00

Anthropic の Claude Tag が、Slack のメッセージを一つずつ学習して企業情報を習得中

AI 企業 Anthropic は、チャットツール Slack でやり取りされるメッセージを逐次学習させる機能「Claude Tag」を開発し、企業の独自知識を自動的に蓄積・活用する仕組みを提供している。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む