本動画では、ドキュメントアップロード時のトークンロスを回避し、RAG システムの管理複雑さを解消する手法が紹介されます。Docling を用いた事前の Markdown 変換と、文ベース・画像ベースなど多様なチャンキング戦略により、データ品質を向上させるアプローチが実演されています。さらに、ローカル LLM と LangFuse を組み合わせたコスト効率に優れた監視・推論パイプラインの構築方法が示されます。
トークンコストの最適化と、ドキュメント処理の品質向上という実務的な課題に対し、具体的なツール(Docling)と戦略を示している点で非常に価値が高いです。
- 01
事前構造化によるコスト削減
ドキュメントをアップロード時に即座に LLM に送信するのではなく、Docling で Markdown へ変換しローカルでチャンキングを行うことで、トークンロスを防ぎます。
- 02
多様なチャンキング戦略
固定サイズだけでなく、文ベースや画像(スクリーンショット)をテキスト化する戦略など、ドキュメントの形式に応じた柔軟な分割手法を採用します。
- 03
ハイブリッド検索と RRF
キーワード検索とセマンティック検索を組み合わせ、SQL と RRF(Reciprocal Rank Fusion)を用いて検索精度と結果の関連性を最大化します。
- 04
ローカル推論と観測性
GPU を必要としない軽量なローカルモデルを使用し、LangFuse によるテレメトリで安全性やパフォーマンスを監視するフレームワークレスな実装を提案します。
このアプローチは、エンタープライズレベルの AI アプリケーションにおいて、生成 AI のランニングコストを劇的に削減し、データプライバシーを維持するローカル推論の実用性を高めます。また、フレームワークに依存しないアーキテクチャは、開発者が自社の要件に合わせて柔軟な RAG システムを構築するための重要な指針となります。