画像・テキスト・動画を統合!オープンソースフレームワークで全モダリティ知識ベースを実現
通義実験室は、テキスト、画像、動画を統合的に扱える全モーダル知識庫向けのオープンソースRAGフレームワーク「VimRAG」を発表し、動的記憶グラフを用いて従来の多モーダル検索における課題を解決する技術的進展を示した。
キーポイント
全モーダル知識庫の実用化課題
従来のRAGはテキスト中心であり、PDF、画像、動画が混在する企業知識庫では、モーダル間の関連性を理解し、複雑な質問に答えることが困難だった。
VimRAGのコアメカニズム
線形のコンテキスト管理を廃し、動的有向非巡回グラフ(DAG)を用いてエージェントの記憶を構造化し、検索の試行錯誤とモーダル間の推論経路を可視化・管理する。
視覚エネルギー配分と効率化
記憶グラフのトポロジーに基づき、コアノードには高解像度の視覚トークンを割り当て、エッジノードは要約または剪定することで、トークン消費を抑えつつ重要な情報を保持する。
グラフ誘導最適化による学習
グラフ誘導方策最適化(GGPO)を提案し、グラフトポロジーに基づく細粒度の貢献度評価により、構造化記憶の論理をモデルに内面化させ、学習の安定性と効率を向上させる。
実験設定の厳密性
テキスト、マルチモーダル文書、多要素画像、長短動画などを単一の統一マルチモーダルコーパスに混合し、モデルがテキスト、画像、動画で正確な検索、記憶、理解生成を実現する必要がある極めて厳格な設定で評価を行った。
VimRAGの性能優位性
Qwen3-VL-8Bモデルでのエンドツーエンド評価で50.1%の平均精度を達成し、複数のベースラインを大幅に上回り、マルチモーダル長文脈シナリオにおける情報スパース性問題を効果的に解決した。
従来手法との比較と革新性
従来のRAGの「次元削減変換」と「線形積み上げ」の限界を超え、動的記憶グラフと構造化推論への転換により、大規模モデルが真にモダリティのギャップを越えられることを示した。
影響分析・編集コメントを表示
影響分析
この発表は、企業の非構造化で多様なデジタル資産(文書、図面、動画)をAIが統合的に理解・活用する「全モーダル知識管理」の実用化に向けた重要な一歩を示している。特に製造業など複雑な知識基盤を持つ産業へのAI応用を加速させる可能性が高い。オープンソースとして公開されたことで、業界全体の技術発展と標準化にも寄与するだろう。
編集コメント
PR色はあるが、従来の多モーダルRAGの実践的課題を明確に指摘し、動的グラフという具体的な技術アプローチで解決を図る点で、技術的深みと実用性を兼ね備えた重要な発表と言える。
VimRAGの統一されたマルチモーダル記憶。モード別処理からの卒業。
大規模言語モデルに企業向けナレッジベース(RAG)を接続することは、もはや業界の標準となっています。これによりAIは「架空の回答」を行わず、根拠のある回答を提供できるようになります。しかし、ナレッジベースが純粋なドキュメントから、画像と動画が交錯する立体的な資産へと進化すると、従来の手法では対応しきれなくなってきました。
ある製造企業の実際のナレッジベースを想像してみてください:
10万本のPDF技術文書(テキスト+図表)
5万枚のCAD設計図および生産ラインの写真
数百本に及ぶ操作トレーニング動画、各30〜60分
ここで顧客が「去年の第3四半期、製品の設計はどの部分で変更されたのか?会議の録画ではその設計についてどのように議論されていたか?」と質問した場合、これが真の地獄レベルの難問となります。あなたは単に3つのモードを横断するだけでなく、AIがそれらの暗黙的な関連性を理解させる必要があります。議事録はPDF内のテキストにあり、設計変更はCAD図面の注釈レイヤーに含まれ、力学テストの解釈は47分目の動画内の会話の中に隠されています。
これこそが、全モーダル長文脈RAGの実装における典型的なジレンマです。この課題を解決するため、通義ラボはVimRAGを正式にオープンソース化しました。これは「テキスト+画像+動画」の混合ナレッジベースを対象とした統一されたRAGフレームワークです。線形な連結の代わりに動的メモリグラフを用い、AIが人間のように「要点を捉え、筋道を整理し、モードを超えて相互検証する」ことを可能にし、検索の混乱を完全に排除し、複雑な質問に余裕を持って対応します。
Arxiv:https://arxiv.org/abs/2602.12735v1
Github:https://github.com/Alibaba-NLP/VRAG
HuggingFace:https://huggingface.co/collections/Alibaba-NLP/vrag
なぜマルチモーダル長文脈タスクの実装が難しいのか?
このような混合モードの検索強化生成タスクに対処する際、現在の実装ソリューションは往々にして2つの極端な状態を示します:
テキスト中心派:図面をOCRで文字化し、動画に字幕を付与する手法です。その結果、レイアウト、色、空間関係が失われます(純粋なテキストで「赤い非常用ボタンが左下にあり、3mmの面取りシャドウ付きである」という記述がいかに冗長かを想像してみてください。ましてや「動画内のエンジニアがその言葉を発した際の手振り」を問うことなど論外です)。
暴力派:テキスト、画像、動画の各ライブラリを個別に構築し、検索時にはそれぞれが独自に動作した上で、最後に強引に連結する手法です。その結果、テキストで「図を参照せよ」と言われてもAIは対応する画像を見つけられず、動画で「第3.2節の規範に従って操作せよ」と示されても、AIは第3.2節の内容を忘れてしまいます。
より深い課題は、マルチモーダル推論パスの混乱にあります。既存のエージェントは日記のように文脈を線形に積み重ねていますが、混合モーダルなシナリオでは、1回の検索で「テキスト1つ+画像3枚+動画2クリップ」が返される可能性があります。ステップが増えるにつれ、単純な文脈管理手法はモデルを「状態の盲視(state blindness)」に陥れ、どのモーダルを検索したか、各モーダル間がどのように相互検証されるか、次のステップで動画を深く掘り下げるべきかテキストに戻って調べるべきかを忘れた状態になり、最終的に類似検索の無限ループに陥ります。
VimRAGの中核メカニズム:人間のような「構造化記憶」
人間が映画を回想するとき、全フレームを再生するのではなく、「重要なプロットの節目」と「視覚的なハイライト」を記憶します。VimRAGはこの認知メカニズムを借鉴し、エージェントの文脈を線形な履歴記録から動的な有向非循環グラフ(DAG: Directed Acyclic Graph)へと進化させ、各ラウンドの動作前にマルチモーダルな記憶を再構築します。これにより、重要な情報を保持しつつ、無効な検索を完全に断ち切ります。
動的記憶グラフ:検索の遡及と試行錯誤を可能にする
VimRAGは「思考-行動-検索」という流水帳的な連結を放棄し、ユーザーの質問(ルートノード)から動的に成長する有向非循環グラフ(DAG)を構築します。各検索は新しいノードを生成し、「テキスト要約+視覚的証拠+トポロジカル位置」を厳密にカプセル化します。
その中核は分岐試行錯誤メカニズムにあります。冗長なパスは自動的に「行き止まり」としてマークされ、有効なパスは重要なリンクとして強調表示されて保持されます。この木構造トポロジにより、AIは「探索的検索」と「結論的な検証」を明確に区別でき、類似クエリの無効な生成ループから完全に解放されます。
視覚的エネルギー配分:節約すべきところは省き、使うべきところに投資する
記憶グラフのトポロジ構造に基づき、フレームワークは各ノードの視覚的記憶に対してインテリジェントなクォータ配分を行います。コアノードや新鮮な証拠は高解像度のビジュアルトークンを保持し、重要な詳細が損なわれることなく提示されることを保証します。一方、エッジノードは自動的にテキスト記述へ降格するか、直接剪枝されます。
これは、人間が資料を処理する際に、重要ファイルは原稿を保持し、次要な材料は要約のみを確認することに似ています。この動的戦略は、極めて少ないトークン消費で完全な理解プロセスを担い、真に有効な情報をモデルへ正確に届けます。
グラフ誘導最適化:モデルに「重点を覚える」ことを学ばせる
記憶パラダイムが訓練可能で収束しやすいものとするため、私たちはグラフ誘導戦略最適化(GGPO: Graph-Guided Policy Optimization)を提案し、細粒度の貢献度評価(Credit Assignment)を実現します。訓練は最終的な答えの「正誤」で軌道全体を一括して賞罰するのではなく、グラフトポロジに基づき精密に遡及します。正例では「貢献のない行き止まり」を剪枝し、負例では「検索行動は有効だったが正解に至らなかったノード」を保護します。このメカニズムは勾配分散を大幅に低減し、モデルが構造化記憶ロジックを迅速に内面化することを可能にし、訓練の安定性と効率性の両方を向上させます。
実験検証:大規模なマルチモーダルコーパスを対象とした評価
テストを現実世界の混沌とした状況により近づけるため、私たちは極めて厳格な設定を行いました。各ベンチマーク(Benchmark)ごとに個別のデータベースを構築するのではなく、テキスト、マルチモーダル文書、複数要素を含む画像、長短動画などをすべて1つの統一されたマルチモーダルコーパスに混合しました。これは、モデルがテキスト、画像、動画において正確な検索、記憶、そして理解と生成を実現する必要があることを意味します。
エンドツーエンドの評価において、Qwen3-VL-8Bモデル上でのVimRAGは平均精度50.1%を達成し、複数のベースライン(Baseline)を大幅に上回り、マルチモーダルな長文脈コンテキストにおける情報の希薄化問題を実効的に解決しました。
図aは検索性能の差異を示しています。General Text(一般テキスト)、Image & VisDoc(画像および視覚文書)、Videos(動画)の3つのカテゴリにおいて、VimRAGはMem1やReActというベースラインを大きく上回っています。VimRAGは推論状態の有向非循環グラフ(DAG)を明示的にモデル化することで、コンテキストが拡張されるにつれて生じる重複クエリや無効なインタラクションといった、従来の方法における状態消失の問題を回避しています。
図bのエントロピー(Entropy)曲線は、トレーニングプロセスの安定性の差異を明らかにしています。GGPO(Graph-Guided Policy Optimization:グラフ誘導型ポリシー最適化)を採用したVimRAGは、解ける分布への探索が完了した後、値が低下して安定化します。これは、Graph-Guided Policy Optimizationが微細なクレジットアサインメント(credit assignment)を通じてトレーニング過程の勾配分散を効果的に低減し、より安定したポリシー収束を実現していることを示しています。
図cは各手法のレイテンシ(遅延時間)を比較しています。VimRAGは知覚に基づく記憶アクションを導入していますが、構造化された推論トポロジーを維持することで無効な検索を削減し、結果として全体の推論効率を向上させています。
ケース提示
シナリオ:ユーザーが「Dr. Smithの微積分第4章における、ラグランジュ乗数法の完全な解題過程と数学的証明は何ですか?」と質問した場合。
従来のRAG(Retrieval-Augmented Generation)のアプローチでは、動画コンテンツ全体をOCRで文字起こしすると数式や黒板の書き込みが失われるか、テキスト、画像、動画の各データベースを個別に検索して無理やり組み合わせるため(顧此失彼:片方に注力するともう一方がおろそかになる)、いずれも限界がありました。
VimRAGの思考プロセスは以下の通りです:
第一段階:エージェントが「第3章」を試しに検索し、「単変数極値」についての内容であることを確認します。これは基礎的な内容でラグランジュとは無関係だと判断し、果断に枝刈り処理を行い「行き止まり」としてマークします。
第二段階:トポロジカル・ローカライゼーション(位相的局所特定)を活用し、「第4章 4.3節」を直接特定します。これが「制約最適化」の中核的な章であることを確認します。
第三段階:4.3節内において、まずラグランジュの公式の数学的定義(テキスト)を抽出し、次に黒板の書き込みのスクリーンショット(画像)と関連付け、最後に「例題4.3.2:箱の体積最大化」の完全な導出プロセスを含む動画へ位置特定を行います。
最終結果:主要なパス v_root → v₂ → (v₃, v₄) → v₅ に沿って、数式、定理、例題という三つの証拠を統合し、完全な回答を生成します。
画像、テキスト、動画が交錯する現実的なナレッジベースに対して、従来のRAGにおける「次元削減変換」や「線形積み上げ」はすでにボトルネックに達しています。VimRAGの探求が証明するように、検索支援生成(Retrieval-Augmented Generation: RAG)が多モーダル処理やコンテキストの盲点を離れ、動的なメモリグラフと構造化推論へ転換したとき、大規模言語モデル(Large Language Model: LLM)は初めてモーダルの溝を越えることができます。
私たちはこのフレームワークを通じて、複雑なビジネスシーンにおける全モーダル検索のための、訓練可能で実装可能、かつ反復可能な新たな道筋を提供したいと考えています。マルチモーダルな知識はもはやAIの盲点ではなく、正確な検索、深い理解、信頼性の高い生成が可能となるビジネス資産となります。
大規模言語モデルが現実世界の知識の海において「脈絡を理解し、重点を記憶し、从容に回答する」こと。これこそがVimRAGが一歩踏み出した最初のステップです。
VimRAGの能力をすぐに体験してみたい方は、アリババクラウド百煉(Bailian)ナレッジベースがすでにテキスト、表、画像、音声動画などのマルチモーダル検索生成機能に対応しており、VimRAGの中核メカニズムが順次統合されています。内蔵アルゴリズムのプラクティスがあり、箱を開けてすぐに使用可能——企業ドキュメントの質問応答から商品画像検索、さらには音声動画コンテンツの検索に至るまで、数ステップの設定だけで専用RAGサービス構築が可能です。
👉クイック体験:https://bailian.console.aliyun.com/cn-beijing/?tab=app#/knowledge-base
VimRAGオープンソースプロジェクトは継続的に構築中です。ぜひご体験ください:
https://modelscope.cn/collections/iic/VRAG
💬 あなたのナレッジベースには、どのような課題や難題が潜んでいますか?
コメント欄でのご投稿をお待ちしています:あなたが直面した最も頭痛の絶えないマルチモーダル検索シナリオは何ですか?もしVimRAGが一つの課題を解決できるとしたら、それを何にしたいですか?高評価数上位3名の方には、通義(Tongyi)の公式グッズをプレゼントいたします(イベント締切:4月11日 11:00)
おすすめ記事
FIPO:2%のトークンを正確に追跡し、大規模言語モデル(LLM)の推論ボトルネックを突破!
Wan2.7-Videoは、創作の自由のために存在する
WeChatで開いてジャンプ
原文を表示
原创 通义实验室 2026-04-09 17:32 浙江
image
VimRAG模态统一记忆,告别分模态处理。
给大模型接上企业知识库(RAG)已是行业标配。它让 AI 告别“凭空捏造”,回答有据可查。但当知识库从纯文档升级为图文、视频交织的立体资产时,传统方案就开始力不从心了。
想象一家制造企业的真实知识库:
10万份PDF技术文档(文字+图表)
5万张CAD设计图和产线照片
上千条操作培训视频,每条30-60分钟
当客户问出:“去年 Q3 产品的设计变化了哪些方面?会议录像里是怎么讨论这个设计的?”这才是真正的地狱难度。你不仅要横跨三种模态,还要让 AI 理解它们之间的隐式关联:会议纪要是 PDF 里的文字,设计变更在 CAD 图纸的标注层,力学测试的解释藏在第 47 分钟的视频对白里。
这正是全模态长上下文 RAG 落地的典型困境,为破解这一难题,通义实验室正式开源 VimRAG——面向「文本+图像+视频」混合知识库的统一 RAG 框架。它用动态记忆图替代线性拼接,让 AI 像人一样“抓重点、理脉络、跨模态印证”,彻底告别检索混乱,从容应对复杂提问。
Arxiv:https://arxiv.org/abs/2602.12735v1
Github:https://github.com/Alibaba-NLP/VRAG
HuggingFace:https://huggingface.co/collections/Alibaba-NLP/vrag
为什么多模态长上下文任务落地难?
面对这种混合模态的检索增强生成任务时,当前落地方案往往呈现两种极端:
文本派:把图纸 OCR 成文字、视频打成字幕,结果丢失版式、颜色、空间关系(想象一下用纯文字描述"红色紧急按钮在左下角且带 3mm 倒角阴影"有多啰嗦,更别提问"视频里工程师说这句话时的手势")。
暴力派:分别建立文本库、图库、视频库,检索时各找各的,最后强行拼接。结果是:文字提到"参照图示",AI却找不到对应的图;视频里展示"按第3.2节规范操作",AI却忘了第 3.2 节说了什么。
更深层的痛点是跨模态推理路径的混乱。现有 Agent 像写日记一样线性堆叠上下文,但在混合模态场景下,一次检索可能返回“一段文字+三张图+两个视频片段”。随着步骤增加,简单的上下文管理方法会使模型陷入“state blindness”,也就是忘了自己查过什么模态、各模态间如何印证、下一步该深挖视频还是回头查文本,最终陷入重复检索的死循环。
VimRAG 的核心机制:像人一样“结构化记忆”
人类回忆一场电影,不会逐帧回放,而是记住“关键情节节点+视觉高光时刻”。VimRAG 借鉴这一认知机制,将 Agent 的上下文从线性历史记录升级为动态有向无环图(DAG),实现每一轮动作前的多模态记忆重构,在保留关键信息的同时彻底斩断无效搜索。
动态记忆图:让检索可回溯、可试错
VimRAG 摒弃了“思考 - 动作 - 检索”的流水账式拼接,构建一张从用户问题(根节点)动态生长的有向无环图(DAG)。每次检索生成新节点,严格封装“文本摘要 + 视觉证据 + 拓扑位置”。
其核心在于分支试错机制:冗余路径自动标记为死胡同,有效路径则被高亮保留为关键链路。这种树状拓扑让 AI 能清晰区分“探索性搜索”与“结论性验证”,彻底告别重复生成相似 Query 的无效循环。
视觉能量分配:该省省,该花花
基于记忆图的拓扑结构,框架对每个节点的视觉记忆进行智能配额分配:核心节点、新鲜证据保留高清视觉 Token,确保关键细节无损呈现;边缘节点则自动降级为文字描述或直接剪枝。
就像人类处理资料时对核心文件保留原稿、对次要材料仅看摘要,这种动态策略以极少的 Token 消耗承载完整理解过程,让真正有效的信息精准抵达模型。
图引导优化:让模型学会“记重点”
为使记忆范式可训练、易收敛,我们提出图引导策略优化(GGPO),实现细粒度的贡献度评估(Credit Assignment)。训练不再以最终答案“对错”一刀切奖惩整条轨迹,而是基于图拓扑精确回溯:正样本中剪枝“无贡献的死胡同”,负样本中保护“检索动作有效但未答对的节点”。这一机制显著降低梯度方差,让模型快速内化结构化记忆逻辑,实现训练稳定性与效率的双重提升。
实验验证:面向大型全模态语料库的评估
为了让测试更贴近真实世界的混乱,我们做了一个极其严苛的设定:没有给每个 Benchmark 单独建库,而是把文本、多模态文档、多元素图片、长短视频等全部混合进一个统一的多模态语料库。这意味着模型需要在文本、图片、视频中实现精准的检索、记忆与理解生成。
端到端评测中,在 Qwen3-VL-8B 模型上,VimRAG 达到 50.1% 的平均准确率,显著优于多种 Baseline,有效解决了多模态长上下文场景中的信息稀疏问题。
图 a 展示了检索性能差异。在 General Text、Image & VisDoc 和 Videos 三个类别中,VimRAG 均显著优于 Mem1 和 ReAct 基线,通过显式建模推理状态的有向无环图,VimRAG 避免了传统方法中的状态丢失问题,即随着上下文扩展导致的重复查询和无效交互。
图 b 的 Entropy 曲线揭示了训练过程的稳定性差异。而采用 GGPO 的 VimRAG 在探索到可解分布后下降并趋于稳定,表明 Graph-Guided Policy Optimization 通过细粒度的 credit assignment,有效降低了训练过程中的梯度方差,实现了更稳定的策略收敛。
图 c 对比了各方法的时延。尽管 VimRAG 引入了感知记忆动作,但由于其通过维护结构化的推理拓扑,减少了无效搜索,从而在整体上提升了推理效率。
case 展示
场景:用户问"Dr. Smith 的微积分第4章里,拉格朗日乘数法的完整解题过程和数学证明是什么?"
传统 RAG 的做法:要么把整个课程视频 OCR 成文字(丢失公式和板书),要么分别检索文本、图片、视频库然后硬拼(容易顾此失彼)。
VimRAG 的思考路径:
第一步:Agent 先试探性检索 Chapter 3,发现讲的是"单变量极值"——太基础了,与拉格朗日无关,果断剪枝标记为死胡同。
第二步:利用拓扑定位,直接锁定 Chapter 4 的 Section 4.3,确认这是"约束优化"的核心章节。
第三步:在 Section 4.3 中,先提取拉格朗日公式的数学定义(文本),再关联板书截图(图像),最后定位到 Example 4.3.2"盒子体积最大化"的完整推导视频。
最终:沿着关键路径 v_root → v₂ → (v₃, v₄) → v₅,将公式、定理、例题三重证据综合成完整答案。
面对图文视频交织的真实知识库,传统 RAG 的"降维转换"与"线性堆叠"早已触及瓶颈。VimRAG 的探索证明:当检索增强告别分模态处理与上下文盲区,转向动态记忆图与结构化推理时,大模型才能真正跨越模态鸿沟。
我们希望通过这一框架,为复杂业务场景下的全模态检索提供一条可训练、可落地、可迭代的新路径。多模态知识不再是 AI 的盲区,而是可被精准检索、深度理解与可靠生成的业务资产。
让大模型在真实世界的知识海洋中"看懂脉络、记住重点、从容作答",这正是 VimRAG 迈出的第一步。
想立刻体验 VimRAG 的能力?阿里云百炼知识库已支持文本、表格、图片、音视频等多模态检索生成能力,VimRAG 的核心机制正逐步集成其中。内置算法实践,开箱即用——无论是企业文档问答、商品图搜还是音视频内容检索,只需几步配置即可构建专属 RAG 服务。
👉快速体验:https://bailian.console.aliyun.com/cn-beijing/?tab=app#/knowledge-base
VimRAG 开源项目持续建设中,欢迎体验:
https://modelscope.cn/collections/iic/VRAG
💬 你的知识库,藏着哪些挑战难题?
欢迎在评论区留言: 你遇到过最头疼的多模态检索场景是? 如果 VimRAG 能帮你解决一个问题,你希望是?点赞最高的 3 位朋友,我们将送出通义周边小礼物(活动截止时间 4月11日11:00)
推荐阅读
FIPO:精准追踪2%的Token,突破大模型推理瓶颈!
Wan2.7-Video 为创作自由而来
跳转微信打开
関連記事
[AINews] 今日は何も大きな出来事はありませんでした
Anthropic が RSI の兆候を示し、OpenAI の ChatGPT が月間アクティブユーザー数で 10 億人を突破。SpaceX AI は IPO について説明しているが、最も重要なのは AIE WF のチケット確保とイベント参加である。
Vite 開発元 VoidZero が Cloudflare に参画
Vite や Vitest を開発する企業「VoidZero」がクラウドプロバイダー「Cloudflare」に合流し、同社全従業員も Cloudflare の一員となる。ただし、主要プロジェクトは引き続きオープンソースとして運営される方針を示した。
Google の新モデル「Gemma 4 12B」は 16GB RAM のノート PC で動作可能に設計
Google は、メモリ消費を抑えた新しい生成 AI モデル「Gemma 4 12B」を発表した。このモデルは、一般的な消費者向けノートパソコン(RAM 16GB)でも実行できるように最適化されており、ローカルでの AI 利用を促進するものである。