この動画では、従来の RAG や GraphRAG が直面する「頻繁に更新されるデータ」と「全文脈の重要性」を同時に満たすための新手法として、拡張キャッシュ増強生成(Extended Cache Augmented Generation)が提案されています。GraphRAG の計算コストの高さを避けつつ、単純なベクトル検索よりも精度を高めるため、複数のコンテキストバケットに分散された KV キャッシュと、それらを統合するスーパーバイザーモデルを採用しています。これにより、ドメイン分類に依存せず、関連性の低い文脈も無視しない高精度かつ高速な回答生成が可能になります。
「文脈すべてが重要」かつ「データが頻繁に変わる」という矛盾する要件に対する、非常に現実的な解決策を示しており、RAG の次の進化形として注目すべき内容です。
- 01
既存手法の限界
頻繁に更新されるデータセットでは GraphRAG の再計算コストが高すぎ、単純な RAG では全文脈を考慮できないという課題がある。
- 02
CAG アプローチの提案
大規模コンテキストウィンドウを持つモデルの KV キャッシュを活用し、ドキュメントを複数のバケットに分散して並列処理する手法。
- 03
スーパーバイザー統合
各キャッシュが回答した内容を、別のスマートなモデル(スーパーバイザー)が照会・質問し、最終的に統合された回答を生成する。
- 04
最適化とトレードオフ
コスト削減のためキャッシュの寿命を最適化する必要があるが、計算量、コスト、速度の間には依然としてトレードオフが存在する。
この技術は、金融取引記録やニュースフィードなど、データが絶えず更新されつつも過去の文脈との深い関係性が重要なエンタープライズユースケースにおいて、GraphRAG の代替として大きな役割を果たす可能性があります。計算リソースの最適化により、リアルタイム性の高い AI エージェントの実装コストを下げ、より複雑な推論タスクへの適用範囲を広げます。