#ocr のAIニュース

13件の記事

百度、長文解析向け KV キャッシュを一定に保つ 3B モデル「Unlimited OCR」を発表

百度は、出力が増加してもメモリ使用量が一定となる「Reference Sliding Window Attention」を採用した 3B パラメータモデル「Unlimited OCR」を発表し、長文の OCR 処理を高速化した。

DeepSeek OCR をベースに定数 KV キャッシュ設計を組み合わせ、人間の作業記憶を模倣する「Unlimited OCR」モデルが開発された。この技術により、32K の最大長制限下で数十ページの文書を単一の順次処理で転写可能となり、音声認識や翻訳タスクにも応用できる。

Mistral は、170 か国語に対応し、エンタープライズ検索や構造化データパイプラインに統合可能な文書知能ツール「OCR 4」をリリースした。同ツールは単一コンテナで展開可能であり、低リソース言語を含む高精度な抽出と他システムより 4 倍の高速処理を実現している。

Mistral AI は最新ドキュメント理解モデル「OCR 4」を発表し、抽出テキストに境界ボックスやブロック分類、信頼度スコアを追加した。このモデルは 170 か国語に対応し、自己完結型デプロイが可能で、企業検索や RAG パイプラインの ingestion コンポーネントとして機能する。

Hugging Face が、PP-OCRv6 モデルを公開しました。このモデルは、パラメータ数を 150 万から 3450 万に増やすことで、50 の言語に対応する高精度な OCR（光学文字認識）機能を実現しています。

スタートアップの Pool が、ユーザーのスクリーンショットから自動的に情報を抽出し、整理して活用できる新アプリを発表した。

サン・ファイナンスグループは、AWS上で生成AIを導入することで、従来のOCRでは困難だった大量の身分証処理における抽出エラーを削減し、手動レビューや不正検出の負荷を大幅に軽減した。

研究者が合成データを活用して、高速で多言語対応の光学文字認識（OCR）モデルを開発した。この手法は、従来のデータ収集の課題を克服し、複数言語でのテキスト認識の効率化を実現している。

Rocket Close社は、Amazon BedrockとAmazon Textractを活用し、住宅ローン書類処理の手動プロセスを効率的な自動化ソリューションに変革した。

本記事は、PDF内の図表をRAGで扱うための6つの手法（テキスト抽出・LLMによるOCR・マルチモーダルEmbedding等）を精度・コスト・処理時間の観点から比較検証し、実務で使える現実的な最適解を整理した。

バイトゥー千帆チームは40億パラメータの文書知能モデル「Qianfan-OCR」を公開した。単一アーキテクチャで画像からマークダウンへ直接変換し、表抽出や文書QAなどを実行する。

百度のAI「文心一言」が、業界トップ企業のシステム最適化（「痩身」）を支援したことを報告している。

Googleの電子ホワイトボード「Jamboard」が日本で購入可能になり、コーポレートエンジニアリング部門が導入を発表しました。