#ocr のAIニュース
13件の記事
百度、長文解析向け KV キャッシュを一定に保つ 3B モデル「Unlimited OCR」を発表
百度は、出力が増加してもメモリ使用量が一定となる「Reference Sliding Window Attention」を採用した 3B パラメータモデル「Unlimited OCR」を発表し、長文の OCR 処理を高速化した。
Unlimited OCR Works(GitHub リポジトリ)
DeepSeek OCR をベースに定数 KV キャッシュ設計を組み合わせ、人間の作業記憶を模倣する「Unlimited OCR」モデルが開発された。この技術により、32K の最大長制限下で数十ページの文書を単一の順次処理で転写可能となり、音声認識や翻訳タスクにも応用できる。
Mistral OCR 4:文書知能のための最先端 OCR ツール(9 分読了)
Mistral は、170 か国語に対応し、エンタープライズ検索や構造化データパイプラインに統合可能な文書知能ツール「OCR 4」をリリースした。同ツールは単一コンテナで展開可能であり、低リソース言語を含む高精度な抽出と他システムより 4 倍の高速処理を実現している。
Mistral OCR 4 が引用対応の構造化出力を RAG、エージェント型、企業検索パイプラインに提供
Mistral AI は最新ドキュメント理解モデル「OCR 4」を発表し、抽出テキストに境界ボックスやブロック分類、信頼度スコアを追加した。このモデルは 170 か国語に対応し、自己完結型デプロイが可能で、企業検索や RAG パイプラインの ingestion コンポーネントとして機能する。
Hugging Face に PP-OCRv6 を公開:150 万パラメータから 3450 万パラメータへ拡張した 50 カ国語対応 OCR
Hugging Face が、PP-OCRv6 モデルを公開しました。このモデルは、パラメータ数を 150 万から 3450 万に増やすことで、50 の言語に対応する高精度な OCR(光学文字認識)機能を実現しています。
Pool の新アプリがスクリーンショットを有用な情報に変換
スタートアップの Pool が、ユーザーのスクリーンショットから自動的に情報を抽出し、整理して活用できる新アプリを発表した。
Sun Finance、AWS上で生成AIを活用しID抽出と不正検出を自動化
サン・ファイナンスグループは、AWS上で生成AIを導入することで、従来のOCRでは困難だった大量の身分証処理における抽出エラーを削減し、手動レビューや不正検出の負荷を大幅に軽減した。
合成データを用いた高速多言語OCRモデルの構築
研究者が合成データを活用して、高速で多言語対応の光学文字認識(OCR)モデルを開発した。この手法は、従来のデータ収集の課題を克服し、複数言語でのテキスト認識の効率化を実現している。
Rocket CloseがAmazon BedrockとAmazon Textractで住宅ローン書類処理を変革
Rocket Close社は、Amazon BedrockとAmazon Textractを活用し、住宅ローン書類処理の手動プロセスを効率的な自動化ソリューションに変革した。
PDFの図表はRAGで扱えるのか?6つの方法で検証して分かった“現実的な最適解”
本記事は、PDF内の図表をRAGで扱うための6つの手法(テキスト抽出・LLMによるOCR・マルチモーダルEmbedding等)を精度・コスト・処理時間の観点から比較検証し、実務で使える現実的な最適解を整理した。
バイトゥー千帆チーム、40億パラメータの統一文書知能モデル「Qianfan-OCR」を公開
バイトゥー千帆チームは40億パラメータの文書知能モデル「Qianfan-OCR」を公開した。単一アーキテクチャで画像からマークダウンへ直接変換し、表抽出や文書QAなどを実行する。
年明け後、なぜさらに痩せたのか?
百度のAI「文心一言」が、業界トップ企業のシステム最適化(「痩身」)を支援したことを報告している。
Jamboardを導入しました
Googleの電子ホワイトボード「Jamboard」が日本で購入可能になり、コーポレートエンジニアリング部門が導入を発表しました。