QCon London 2026:本番AIシステムのための信頼性のある検索
QCon London 2026において、RabobankのAIテックリードであるLan Chuは、10,000ドキュメントを300人以上のユーザーが利用する本番AI検索システムの導入から得た教訓を共有し、RAGシステムの失敗の多くは言語モデル自体ではなく、インデックス作成と検索に起因することを示した。
キーポイント
本番環境でのRAGシステム導入事例
Rabobankが300人以上のユーザーと10,000ドキュメントを対象に本番AI検索システムを導入した実践的な事例が共有された。
RAGシステムの主要な失敗要因
RAGシステムの失敗の多くは、言語モデル自体ではなく、インデックス作成と検索の段階に起因することが示された。
実践的知見の共有
カンファレンスの場を通じて、金融機関における大規模なAIシステム導入の具体的な課題と教訓が業界に共有された。
影響分析・編集コメントを表示
影響分析
この記事は、RAGシステムの実運用における主要な課題を具体的な事例に基づいて明らかにしており、AIシステムの本番導入を目指す組織にとって実用的な知見を提供する。特に、言語モデル以外のインフラ部分(インデックス・検索)の重要性を再認識させる点で、業界の実践的な議論に貢献する内容である。
編集コメント
RAGシステムの実運用における具体的な失敗要因を、金融機関の大規模導入事例に基づいて示した点が貴重。AIの本番導入を考える全ての技術リード必読の内容と言える。
QCon London 2026において、ラババンクのAI技術責任者であるラン・チュ氏は、10,000文書にわたる300名以上の内部ユーザーが使用する生産環境向けAI検索システムの導入から得た教訓を共有しました。彼女の経験によると、RAG(Retrieval-Augmented Generation)システムにおける失敗の多くは、言語モデルそのものではなく、インデックス作成と検索プロセスに起因します。
このシステムにより、ユーザーは数千件の内部文書(PDFやPowerPointファイルを含む)を検索し、顧客会議への準備などのタスクに対して迅速に洞察を抽出することができます。
そのアーキテクチャは、典型的なRAGパイプラインに従っています:
1- ドキュメント取り込み:ベクトルデータベースへのインデックス作成前に、文書の解析、チャンク化、埋め込みを行う
2- 検索と生成:関連するチャンクを検索し、LLM(大規模言語モデル)に送信して回答を生成する
3- 観測可能性:トレース、検索パフォーマンス、評価指標のモニタリングを行う
アーキテクチャはシンプルに見えますが、チュ氏は生産環境システムでは文書の品質、検索の関連性、および評価に関する課題がすぐに顕在化すると説明しました。
発表者は、AI検索システムにおいて文書を正確に解析することが極めて重要であると強調しました。企業文書には表やインフォグラフィックスなど複雑なレイアウトが含まれることが多く、単にプレーンテキストに変換すると重要な構造が失われ、数値の誤読や表の誤解釈を招く恐れがあります。これを解決するため、彼女は従来のテキスト抽出手法と、レイアウトを理解するビジュアルランゲージモデルを組み合わせたパイプラインを構築しました。
現代の言語モデルを用いても、モデルを圧倒させコストを増大させるのを避けるためにコンテンツをチャンク化する必要があります。Chu は異なる方法をテストし、ドキュメントをセクションごとに分割する方法が自身のデータセットにおいて最も効果的であり高い精度を達成できることを発見しましたが、適切な戦略は特定のデータに依存すると強調しました。
標準的な検索システムはベクトル類似性(vector similarity)に依存していますが、これではドキュメントのタイミングなどの重要な文脈を見逃す可能性があります。彼女のシステムでは、新しいドキュメントを優先するために時間的スコアリング(temporal scoring)を追加し、ドキュメントを検索するか外部 API を呼び出すかを決定するルーティング層(routing layer)を実装しました。モデルはツールパラメータの処理に苦戦することがあるため、時にはユーザーに入力の確認を求めることもあります。
評価はしばしば軽視されますが、Chu は実際のユーザークエリからデータセットを構築し、ルーティングや時間的エラーなどの失敗モードを追跡し、統計的手法を用いて改善を検証することを推奨しています。実際のリクエストは合成データセットよりも多くの価値をもたらすことがよくあります。
重要な教訓は、効果的な AI 検索システムを構築するにはいくつかの領域に細心の注意を払う必要があること、検索品質は正確なドキュメント解析とインデックス付けに依存すること、チャンキング戦略は実データセット上でテストおよび検証する必要があること、そして検索には単純なテキスト類似性だけでなく時間的関連性などのシグナルも考慮すべきであることです。発表者は、エージェント型アーキテクチャが機能を強化できる一方で追加の複雑さを導入し、本番環境の AI システムで信頼性の高いパフォーマンスを確保するには堅牢で構造化された評価フレームワークが不可欠であると指摘しました。
著者について
Daniel Dominguez
Daniel は SamXLabs のマネージングパートナーです。SamXLabs は AWS パートナーネットワークに所属する企業です。彼はスタートアップおよび Fortune 500 企業のソフトウェア製品開発において 13 年以上の経験を持っています。Daniel はワシントン大学で工学の学位を取得し、機械学習の専門分野を修了しています。AI とクラウドコンピューティングを活用して革新的なソリューションを生み出すことに情熱を注いでいます。機械学習ティアの AWS コミュニティビルダーとして、知識の共有とソフトウェア製品のイノベーション推進に尽力しています。
もっと見る 閉じる
原文を表示
At QCon London 2026, Lan Chu, AI tech lead at Rabobank, shared lessons from deploying a production AI search system used internally by more than 300 users across 10,000 documents. Her experience shows that most failures in RAG systems stem from indexing and retrieval, rather than the language model itself.
The system allows users to search thousands of internal documents, including PDFs and PowerPoint files, to quickly extract insights for tasks such as preparing for client meetings.
Its architecture follows a typical RAG pipeline:
1- Document ingestion: parsing, chunking, and embedding documents before indexing them in a vector database
2- Retrieval and generation: retrieving relevant chunks and sending them to an LLM to generate answers
3- Observability: monitoring traces, retrieval performance, and evaluation metrics
While the architecture appears simple, Chu explained that production systems quickly encounter challenges around document quality, retrieval relevance, and evaluation.
The presenter highlighted that parsing documents accurately is crucial for AI retrieval systems. Enterprise documents often have complex layouts like tables and infographics, and simply converting them to plain text can strip away important structure, causing misread numbers or misinterpreted tables. To fix this, she built a pipeline combining traditional text extraction with visual-language models that understand layouts.
Even with modern language models, chunking content is necessary to avoid overwhelming the model and increasing costs. Chu tested different methods and found that breaking documents into sections worked best for her dataset, reaching high accuracy, though she stressed that the right strategy depends on the specific data.
Standard retrieval systems rely on vector similarity, but this can miss important context, such as a document's timing. Her system added temporal scoring to favor newer documents and a routing layer to decide whether to retrieve documents or call external APIs. Since models can struggle with tool parameters, sometimes users are asked to confirm inputs.
Evaluation is often neglected, but Chu recommends building datasets from real user queries, tracking failure modes like routing or temporal errors, and using statistical methods to verify improvements. Real queries often provide more value than synthetic datasets.
The key lessons are that building effective AI search systems requires careful attention to several areas, retrieval quality relies on accurate document parsing and indexing, chunking strategies need to be tested and validated on real datasets, and retrieval should consider signals beyond simple text similarity, such as temporal relevance. The presenter noted that agentic architectures can enhance capabilities but introduce additional complexity, and that robust, structured evaluation frameworks are essential to ensure reliable performance in production AI systems.
About the Author
Daniel Dominguez
Daniel is the Managing Partner at SamXLabs an AWS Partner Network company. He has over 13 years of experience in software product development for startups and Fortune 500 companies. Daniel holds a degree in Engineering and a Machine Learning specialization from the University of Washington. He is passionate about leveraging AI and cloud computing to create innovative solutions. As an AWS Community Builder in the Machine Learning tier, Daniel is committed to sharing knowledge and driving innovation in software products.
Show moreShow less
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み