AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Hugging Face Blog·2026年6月22日 22:18·約8分で読める

Hugging Face に PP-OCRv6 を公開:150 万パラメータから 3450 万パラメータへ拡張した 50 カ国語対応 OCR

#OCR#Vision#Open Source#Hugging Face#PP-OCR
TL;DR

Hugging Face は、パラメータ数を大幅に拡張することで 50 か国語に対応する高精度 OCR モデル「PP-OCRv6」を公開し、マルチリンガル認識のアクセシビリティを向上させた。

AI深層分析2026年6月22日 23:03
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

大規模化による精度向上

パラメータ数を 150 万から 3450 万へと約 23 倍に増やすことで、複雑な文字や低品質画像への認識精度を大幅に改善している。

2

広範な多言語対応

単一のモデルで 50 の異なる言語を同時に処理可能にし、グローバルなドキュメント解析や翻訳ワークフローの効率化を支援する。

3

オープンソース生態系への統合

Hugging Face 上で公開されたことで、開発者が容易にモデルを検証・デプロイでき、OCR ツールチェーンの標準化が加速している。

影響分析・編集コメントを表示

影響分析

本発表は、OCR テクノロジーの性能基準を再定義し、特にリソース制約のある環境や多言語対応が必要な現場において、高精度な認識を容易に実装できる道を開いた。これにより、ドキュメント自動化(DOA)やデータ入力業務の効率化がさらに加速すると予想される。

編集コメント

パラメータ数の劇的な増加が、いかにして多言語 OCR の精度を飛躍させたかを示す好例であり、軽量モデルと高精度モデルのバランスを考える上で重要なケーススタディです。

記事一覧に戻る

PP-OCRv6 をオンラインで評価し、PaddlePaddle、Transformers、または ONNX Runtime バックエンドを活用して、軽量かつ本番環境対応の OCR を統合してください。

PP-OCRv6 は、PaddleOCR のユニバーサル OCR モデルファミリーにおける最新世代です。文書、スクリーンショット、多言語画像、デジタルディスプレイ、産業用ラベル、および屋外テキストなど、実世界のテキスト検出と認識のために設計されています。

このモデルファミリーは、1.5M から 34.5M パラメータまでスケーリング可能で、tiny(超小型)、small(小型)、medium(中規模)の 3 つのティアがあります。中規模および小型のティアでは、簡体中国語、繁体中国語、英語、日本語、および 46 のラテン文字系言語を含む50 か国語をサポートしています。PP-OCRv6 をすぐにオンラインでお試しください:PP-OCRv6 オンラインデモ。

PaddleOCR の公式な社内マルチシナリオ OCR ベンチマークにおいて、PP-OCRv6_mediumは検出 Hmean 86.2%および認識精度 83.2%を達成しました。PP-OCR5_server と比較すると、テキスト検出が+4.6 パーセントポイント向上し、テキスト認識が+5.1 パーセントポイント向上しています。

PP-OCRv6 は、小規模モデルと柔軟なデプロイオプションを用いて、正確で構造化されたテキスト出力を生成するという実用的な OCR のニーズに焦点を当てています。VLM 時代においてなぜ専門的な OCR モデルが依然として有用であるかについての詳細な議論は、以前のブログ記事 PP-OCRv5 on Hugging Face: A Specialized Approach to OCR をご覧ください。

PP-OCRv6 の新機能

PP-OCRv6 は、検出と認識の両方において、アーキテクチャ、トレーニング、データの改善を導入しました。主な設計目標は、モデルサイズを異なるデプロイ設定に適したままに保ちつつ、OCR の精度を向上させることです。

3 つのモデルティア

PP-OCRv6 は、異なるモデルサイズと OCR 精度レベルをカバーする 3 つのモデルティアを提供します。

モデル

モデルサイズ

検出 Hmean

認識精度

典型的な適用シナリオ

PP-OCRv6_tiny

1.5M パラメータ

80.6%

73.5%

エッジデバイス、軽量ローカル OCR、レイテンシー敏感なデモ、制約のある環境

PP-OCRv6_small

7.7M パラメータ

84.1%

81.3%

モバイル、デスクトップ、バランス型 OCR サービス、低計算コストでの多言語 OCR

PP-OCRv6_medium

34.5M パラメータ

86.2%

83.2%

精度重視の OCR、サーバーサイドパイプライン、産業用 OCR、ドキュメント取り込み、多言語 OCR

PPLCNetV4 バックボーン

PP-OCRv6 は、テキスト検出とテキスト認識の両方に対してPPLCNetV4を統一されたバックボーンとして採用しています。

開発者にとっての主な利点は、モデルファミリー全体における一貫性です。Tiny、Small、Medium の各ティアは互いに無関係なモデルではなく、同じ OCR ファミリーの構成要素であり、共通するアーキテクチャの方向性を共有しています。

テキスト検出のための RepLKFPN

テキスト検出は OCR パイプラインの第一段階です。検出の品質は認識器に送られるクロップに影響し、不良なクロップは往々にして認識精度の低下を招きます。

PP-OCRv6 は、推論効率を維持しながら多スケールテキスト検出のために設計された軽量な大カーネル特徴金字塔ネットワークである RepLKFPN を用いて、検出モジュールをアップグレードしました。

これは、テキストが小さく密集している場合や回転している場合、解像度が低い場合、あるいは複雑な背景に埋め込まれている場合など、実世界の OCR 入力において特に重要です。

認識のための EncoderWithLightSVTR

テキスト認識においては、PP-OCRv6 は EncoderWithLightSVTR を採用しています。これは局所的文脈モデル化とグローバルアテンションを組み合わせることで、困難なテキストクロップにおける認識品質を向上させます。

これらの認識機能の改善は、多言語テキスト、画面テキスト、産業用文字、特殊記号、密集したテキスト、およびノイズの多い画像領域において特に有用です。

統合された多言語 OCR

Medium および Small の各ティアでは、1 つのモデルファミリー内で 50 か国語 をサポートしており、簡体中国語、繁体中国語、英語、日本語、および 46 のラテン文字系言語を網羅しています。

これにより、一般的な多言語 OCR シナリオにおいて、個別の OCR モデルが必要となるケースを減らすことができます。

PaddleOCR を用いたクイックスタート

PaddleOCR のインストール:

pip install paddleocr

Paddle Inference(デフォルトバックエンド)を使用して OCR を実行します:

from paddleocr import PaddleOCR

モデル:PP-OCRv6_medium(デフォルト)

バックエンド:Paddle Inference(デフォルト)

oc = PaddleOCR(

use_doc_orientation_classify=False,

use_doc_unwarping=False,

use_textline_orientation=False,

)

result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

for res in result:

res.print()

res.save_to_img("output")

res.save_to_json("output")

OCR 結果は、可視化画像および構造化 JSON 出力として保存できます。この構造化出力は、ドキュメント解析、検索、抽出、RAG(Retrieval-Augmented Generation)、分析、またはエージェントワークフローなどの下流システムで使用可能です。

利用可能な推論バックエンド

PP-OCRv6 は、PaddleOCR を介して複数の推論バックエンドと併用できます。PaddleOCR 3.7 では統一された推論エンジンインターフェースが提供されており、エンジンが基盤となるランタイムを選択し、関連する設定はパイプラインまたはモジュール API を通じて渡すことができます。

バックエンド

説明

Transformers

サポート対象の PaddleOCR モデル向けに Hugging Face / PyTorch に焦点を当てた推論パス

ONNX Runtime

ONNX ベースのデプロイ環境向けのポータブルな推論パス

Paddle Inference

ネイティブな Paddle 推論形式

Hugging Face ユーザー向けに、PaddleOCR は Transformers バックエンドを使用して選択された OCR およびドキュメント解析モデルを実行することをサポートしています。これは以下のように有効化できます:

engine="transformers"

PaddleOCR における Transformers バックエンドの動作の詳細については、以下をご覧ください。

PaddleOCR: Transformers バックエンドを使用した OCR およびドキュメント解析タスクの実行

Transformer バックエンドで PP-OCRv6 の例を実行する:

from paddleocr import PaddleOCR

モデル: PP-OCRv6_medium(デフォルト)

バックエンド: transformers

ocr = PaddleOCR(

use_doc_orientation_classify=False,

use_doc_unwarping=False,

use_textline_orientation=False,

engine="transformers",

)

result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

ONNX バリアントも、engine="onnxruntime" を使用して ONNX Runtime 経由で動作する環境向けに PP-OCRv6 コレクション で利用可能です:

from paddleocr import PaddleOCR

モデル: PP-OCRv6_medium(デフォルト)

バックエンド: ONNX Runtime

ocr = PaddleOCR(

use_doc_orientation_classify=False,

use_doc_unwarping=False,

use_textline_orientation=False,

engine="onnxruntime",

)

result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

これらのバックエンドオプションを組み合わせることで、PP-OCRv6 は Hugging Face Hub 上で同じ OCR モデルファミリーを維持しつつ、異なるランタイム環境全体で利用可能になります。

結論

PP-OCRv6 は、実世界のテキスト検出および認識のための軽量な多言語 OCR モデルファミリを PaddleOCR に拡張したものです。

リリースには、1.5M から 34.5M パラメータまでの 3 つのモデルティアが含まれており、最大 50 言語の OCR サポートに対応し、PP-OCRv5_server と比較して検出および認識精度が向上しています。また、Hugging Face Hub では safetensors、Paddle inference models(Paddle インフェレンスモデル)、ONNX models(ONNX モデル)など、複数のモデル形式を利用可能です。

ホストされた Hugging Face Space と利用可能な PaddleOCR インフェレンスバックエンドと併せて、PP-OCRv6 は評価および統合のためのいくつかの入り口を提供します:

  • オンラインデモ:PP-OCRv6 Online Demo
  • モデルコレクション:PP-OCRv6 Collection
  • Transformers Backend ブログ:PaddleOCR with Transformers Backend
  • PaddleOCR ドキュメント:PP-OCRv6 Documentation
  • PaddleOCR: PP-OCRv6 Documentation
  • PaddleOCR 公式サイト:https://www.paddleocr.com

オンラインデモで PP-OCRv6 を評価したり、コレクション内の利用可能なモデル資産を検索したり、自身の OCR ワークフローに適合するインフェレンスバックエンドを使用したりすることができます。

原文を表示

Back to Articles

Evaluate PP-OCRv6 online, then integrate lightweight, production-ready OCR with PaddlePaddle, Transformers, or ONNX Runtime backend.

PP-OCRv6 is the latest generation of PaddleOCR’s universal OCR model family. It is designed for real-world text detection and recognition across documents, screenshots, multilingual images, digital displays, industrial labels, and scene text.

The model family scales from 1.5M to 34.5M parameters, with three tiers: tiny, small, and medium. The medium and small tiers support 50 languages, including Simplified Chinese, Traditional Chinese, English, Japanese, and 46 Latin-script languages. Try PP-OCRv6 online quickly: PP-OCRv6 Online Demo.

On PaddleOCR’s official in-house multi-scenario OCR benchmarks, PP-OCRv6_medium reaches 86.2% detection Hmean and 83.2% recognition accuracy. Compared with PP-OCRv5_server, it improves text detection by +4.6 percentage points and text recognition by +5.1 percentage points.

PP-OCRv6 focuses on a practical OCR need: producing accurate, structured text outputs with small models and flexible deployment options. For a deeper discussion of why specialized OCR models remain useful in the VLM era, see our previous blog: PP-OCRv5 on Hugging Face: A Specialized Approach to OCR.

What’s new in PP-OCRv6

PP-OCRv6 introduces architecture, training, and data improvements across detection and recognition. The main design goal is to improve OCR accuracy while keeping model sizes suitable for different deployment settings.

Three model tiers

PP-OCRv6 provides three model tiers, covering different model sizes and OCR accuracy levels.

Model

Model size

Detection Hmean

Recognition accuracy

Typical application scenarios

PP-OCRv6_tiny

1.5M params

80.6%

73.5%

Edge devices, lightweight local OCR, latency-sensitive demos, constrained environments

PP-OCRv6_small

7.7M params

84.1%

81.3%

Mobile, desktop, balanced OCR services, multilingual OCR with lower compute cost

PP-OCRv6_medium

34.5M params

86.2%

83.2%

Accuracy-oriented OCR, server-side pipelines, industrial OCR, document ingestion, multilingual OCR

PPLCNetV4 backbone

PP-OCRv6 uses PPLCNetV4 as a unified backbone for text detection and text recognition.

For developers, the main benefit is consistency across the model family. The tiny, small, and medium tiers are not unrelated models; they are part of the same OCR family and share a common architectural direction.

RepLKFPN for text detection

Text detection is the first stage of the OCR pipeline. Detection quality affects the crops sent to the recognizer, and poor crops often lead to poorer recognition.

PP-OCRv6 upgrades the detection module with RepLKFPN, a lightweight large-kernel feature pyramid network designed for multi-scale text detection while keeping inference efficient.

This is relevant for real-world OCR inputs, where text may be small, dense, rotated, low-resolution, or embedded in complex backgrounds.

EncoderWithLightSVTR for recognition

For text recognition, PP-OCRv6 uses EncoderWithLightSVTR. It combines local context modeling with global attention to improve recognition quality on challenging text crops.

The recognition improvements are especially relevant for multilingual text, screen text, industrial characters, special symbols, dense text, and noisy image regions.

Unified multilingual OCR

The medium and small tiers support 50 languages in one model family, covering Simplified Chinese, Traditional Chinese, English, Japanese, and 46 Latin-script languages.

This helps reduce the need for separate OCR models across common multilingual OCR scenarios.

Quick start with PaddleOCR

Install PaddleOCR:

code
pip install paddleocr

Run OCR with Paddle Infernece(Default backend):

code
from paddleocr import PaddleOCR

# Model: PP-OCRv6_medium(Default)
# Backend: Paddle Inference(Default)
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

The OCR result can be saved as visualization images and structured JSON output. The structured output can then be used by downstream systems such as document parsing, search, extraction, RAG, analytics, or agent workflows.

Available inference backends

PP-OCRv6 can be used with multiple inference backends through PaddleOCR. PaddleOCR 3.7 provides a unified inference-engine interface, where engine selects the underlying runtime and related configuration can be passed through the pipeline or module API.

Backend

Description

Transformers

Hugging Face / PyTorch-oriented inference path for supported PaddleOCR models

ONNX Runtime

Portable inference path for ONNX-based deployment environments

Paddle Inference

Native Paddle inference format

For Hugging Face users, PaddleOCR supports running selected OCR and document parsing models with a Transformers backend. This can be enabled with:

code
engine="transformers"

For more details on how the Transformers backend works in PaddleOCR, see:

PaddleOCR: Running OCR and Document Parsing Tasks with a Transformers Backend

Run PP-OCRv6 example with Transformer Backend:

code

from paddleocr import PaddleOCR

# Model: PP-OCRv6_medium(Default)
# Backend: transformers
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="transformers",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

ONNX variants are also available in the PP-OCRv6 Collection for environments that use ONNX Runtime through engine="onnxruntime":

code
from paddleocr import PaddleOCR

# Model: PP-OCRv6_medium(Default)
# Backend: ONNX Runtime
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="onnxruntime",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

Together, these backend options make PP-OCRv6 available across different runtime environments while keeping the same OCR model family on the Hugging Face Hub.

Conclusion

PP-OCRv6 extends PaddleOCR with a lightweight, multilingual OCR model family for real-world text detection and recognition.

The release includes three model tiers from 1.5M to 34.5M parameters, up to 50-language OCR support, improved detection and recognition accuracy over PP-OCRv5_server, and multiple model formats on the Hugging Face Hub, including safetensors, Paddle inference models, and ONNX models.

Together with the hosted Hugging Face Space and the available PaddleOCR inference backends, PP-OCRv6 provides several entry points for evaluation and integration:

  • Online Demo: PP-OCRv6 Online Demo
  • Model Collection: PP-OCRv6 Collection
  • Transformers Backend Blog: PaddleOCR with Transformers Backend
  • PaddleOCR Documentation: PP-OCRv6 Documentation
  • PaddleOCR: PP-OCRv6 Documentation
  • PaddleOCR Official Website: https://www.paddleocr.com

You can evaluate PP-OCRv6 with the online demo, explore the available model assets in the Collection, and use the inference backend that matches your own OCR workflow.

この記事をシェア

関連記事

Hugging Face Blog★32026年6月22日 09:00

OpenClaw リポジトリのトリアージをローカルモデルで無料で行えるようになりました!

Hugging Face が、OpenClaw リポジトリの内容をトリアージするためにローカルモデルを利用する仕組みを無料で提供開始した。

Hugging Face Blog★42026年6月18日 09:00

エージェント性は十分か?独自ツールを用いたオープンモデルのベンチマーク調査

Hugging Face が、独自に構築したツール環境において、オープンソースモデルがどれほど「エージェント性」を発揮できるかを評価するベンチマーク手法を発表しました。

Hugging Face Blog★42026年6月17日 19:18

Hugging Face Hub からロボットハードウェアへ:Strands Agents と LeRobot の連携

Hugging Face が、同社のプラットフォーム上で開発された Strands Agents および LeRobot を活用し、AI モデルを直接ロボットハードウェアに展開する取り組みを発表した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む