#ドキュメント処理 のAIニュース
3件の記事
OCRmyPDF チュートリアル:スキャン文書を検索可能な PDF/A ファイルに変換し、サイドカーテキスト抽出とバッチ処理を行う方法
MarkTechPost は、OCRmyPDF を使用してスキャン文書を検索可能な PDF/A 形式に変換する高度なワークフローの構築方法を解説しています。このチュートリアルでは、必要な依存関係のインストールから始まり、外部ファイルに依存しないテスト用 PDF の作成、実際の API 利用による変換、サイドカーテキストの抽出、結果の検証、Tesseract の設定調整、ノイズ除去、および既 OCR 済み文書の処理方法までを網羅しています。
MarkTechPost·6月29日
Microsoft WordのCopilotが変更履歴の追跡とコメント管理を可能に
MicrosoftはWordのCopilotに、法務・財務・コンプライアンス専門家向けの新機能として、変更履歴の追跡とコメント管理機能を追加した。
The Decoder·4月15日
PDFの図表はRAGで扱えるのか?6つの方法で検証して分かった“現実的な最適解”
本記事は、PDF内の図表をRAGで扱うための6つの手法(テキスト抽出・LLMによるOCR・マルチモーダルEmbedding等)を精度・コスト・処理時間の観点から比較検証し、実務で使える現実的な最適解を整理した。
HEROZ Tech Blog·3月31日