Ecom-RLVE:Eコマース対話エージェントのための適応可能な検証環境
Hugging Face BlogのEcom-RLVEプロジェクトは、強化学習による検証可能な報酬を用いてマルチターンかつツール連携型の実店舗対応エージェントを訓練するフレームワークであり、実務レベルのタスク完了性能を示している。
キーポイント
RLVRによる実務エージェント訓練
LLMの「流暢さ」と「タスク完了」の乖離を解消するため、強化学習と検証可能な報酬(RLVR)を用い、制約条件やマルチステップの取引ワークフローを最適化する。
8つの検証可能環境と12軸難易度
商品検索、カート構築、返品処理など8つの環境を提供し、エージェントの能力に追従するプロシージャル生成と適応型難易度カリキュラムで学習を安定させる。
Qwen 3 8BとDAPOによる実証
オープンソースモデルQwen 3 8BをDAPOアルゴリズムで300ステップ訓練し、環境スケーリングと適応難易度が実エージェントのタスク完了に転移することを早期結果で示した。
Adaptive Difficulty Scheduling
各環境でエージェントの成功率を個別に追跡し、確実な成功が確認されるまで難易度を上昇させず、学習効率と進歩のバランスを保つ。
カート構築に必要な5つのスキルと6つのツール
商品検索、バリアント選択、カート管理、不明点の明確化、複数アイテム注文に対応するスキルと、それを実現する専用ツールセットを統合し、検索から行動までの完全なループを構築する。
現実的なバリアント合成と難易度スケーリング
実カタログの希薄なバリアントデータを補うため、カテゴリ固有の属性に基づいて1つの正解と2つの紛争者を生成し、バリアントの必要性に応じて難易度を段階的に調整する。
難易度スケーリングによるエラーカスケードの可視化
単純タスク(d=1)と複雑タスク(d=8)を比較し、バリエーション選択ミスや修正無視、幻覚などが連鎖するマルチステップエラーを明確に表面化させる。
影響分析・編集コメントを表示
影響分析
この取り組みは、LLMエージェントの実装における「流暢さ」と「実務完了」の乖離を強化学習で解決する新たなパラダイムを示唆している。特に、LLM-as-a-judgeに依存せずアルゴリズム的に検証可能な報酬設計は、信頼性の高い商用エージェント開発の重要な指針となる。今後はハッカソン発のプロジェクトがどのように実環境へ展開し、オープンソースエコシステムに貢献するかが注目される。
編集コメント
ハッカソン発のプロジェクトでありながら、RLVRとアルゴリズム検証報酬という堅牢な設計を採用している点は評価できる。実環境でのスケーラビリティとオープンソースモデルの組み合わせが、次世代ECエージェント開発の標準プロセスになる可能性を秘めている。
タンクトップのバリエーションを再取得し、XSを2つ追加 — エアフライヤーは修正されない。ユーザー: 「エアフライヤーはまだバンブーと表示されています。XSは2つではなく3つ必要です。」
タンクトップのバリエーションを再度再取得 — 依然としてエアフライヤーは無視される。ユーザー: 「エアフライヤーのバリエーションを変更してください。」
「チャコールフィルターバリエーションが見つかりません。」 — それは存在する。エージェントはターン3で確認しているが、選択しなかった。ユーザー: 「ではエアフライヤーはスキップしてください。」
回答: { "done": true }
カートが目標と一致。3ターン、有効ターン数2。
間違ったバリエーション、間違った数量、ユーザーが諦めた。8ターン、有効ターン数6。
難易度d=1では、エージェントは3ターンできれいにタスクを解決する。d=8では、スパイラル状態に陥る — チャコールではなくバンブーを選択し、XSではなくXLを選択し、ユーザーからの2回の修正にもかかわらずエアフライヤーを修正せず、最終的にバリエーションが存在しないという幻覚を見る。これはまさに、難易度カリキュラムが浮き彫りにする種類の多段階エラー連鎖であり、適応型トレーニングがエージェントに回復方法を教えるべきものである。
ユーザーシミュレーション
検証可能環境には、現実的に振る舞うユーザーシミュレータが必要である。我々はQwen3.5 (9.7B)を使用して、定型テンプレートではなく、自然で多様なユーザーメッセージを生成する — タイポを含むリクエストから会話中のトピック切り替えまで全てをカバーする。
トレーニング品質にとって重要な2つの設計選択:
好みは表明された制約と一致する。各シミュレートユーザーは、隠れた好みのセット(価格感応度、ブランド忠誠度、配送速度など)を持つ。これらは意図的に、ユーザーが伝えた制約に偏らせている — つまり、ユーザーが「25ドル以下」と言った場合、報酬関数は実際に価格を気にする。これがないと、エージェントはユーザーの指示に正しく従ったことでペナルティを受ける可能性がある。
戦略的省略。LLMは、エージェントに明確化の質問を強制するために、開始メッセージから一部の制約を意図的に省略する。システムは何が言及され、何が言及されなかったかを正確に追跡するため、エージェントは与えられなかった情報に対して決してペナルティを受けない。
環境スケーリング
RLVEの方法論に従い、ネストされた環境コレクションを定義する:
C1 ⊂ C2 ⊂ C4 ⊂ C8
検索クエリ構築、カート操作
制約下での類似性推論
+ 商品発見、返品
取引ワークフロー(検索+レコメンデーション、返品開始)
+ ステータス、ポリシー、バンドル、ジャーニー
知識検索、計画、構成性
我々は仮説を立てる — RLVEの知見と一致して — C8エージェントは、専門家自身のタスクにおいてさえ、単一環境専門家を上回ると。
初期実現可能性調査として、Qwen 3 8BをDAPOでC1(カート構築)に300ステップトレーニングした。
DAPO (G = 8 ロールアウト/プロンプト)
200万商品、Alibaba-NLP/gte-modernbert-baseによるFAISSインデックス

到達難易度の漸進的成長を確認し、適応型スケジューリングが、RLVE論文で予測された飽和(静的-低)や飢餓(静的-高)パターンではなく、安定した学習シグナルを生成することを確認した。
自分で試す
以下に埋め込まれたデモを使用して、ブラウザで直接ライブエピソードを実行してください。開始方法は以下の通り:
ドロップダウンから環境を選択(例: E_CART)
難易度を設定 — 0
「エピソードリセット」をクリック — シミュレートユーザーがショッピングリクエストで開始する。
あなたがエージェントです: ツール呼び出しを行い、出力を分析し、最終的な商品IDリストを提出してください。
実行間で「エピソードリセット」をクリックして新しいシナリオを開始する。
環境、検証器、トレーニング設定は全てオープンソース:
git clone https://github.com/owlgebra-ai/EcomRLVE-Gym cd EcomRLVE-Gym pip install -e .
200万商品カタログはHubで利用可能:
from datasets import load_dataset catalog = load_dataset("owlgebra-ai/Amazebay-catalog-2M", split="train") print(f"{len(catalog)} products loaded")
Zeng, Z., Ivison, H., Wang, Y., et al. (2025). RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments. ICML 2025. arXiv:2511.07317
Yu, Q., Zhang, Z., Zhu, R., et al. (2025). DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv:2503.14476
Shao, Z., Wang, P., Zhu, Q., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300
DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning in LLMs through Reinforcement Learning. Nature.
Meta AI. (2024). Llama 3.1: A Foundation Model for General Intelligence. llama.meta.com
Qwen Team. (2025). Qwen3 Technical Report. arXiv:2505.09388

原文を表示
Back to Articles Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents
Upvote -
Rahul Bajaj thebajajra Follow
owlgebra-ai
Jaya Nupur ai-queen Follow
owlgebra-ai
Anuj Garg pmonad Follow
owlgebra-ai
ben burtenshaw burtenshaw Follow TL;DR — We extend the RLVE framework from single-turn reasoning puzzles to multi-turn, tool-augmented e-commerce conversations. EcomRLVE-GYM provides 8 verifiable environments — product discovery, substitution, cart building, returns, order tracking, policy QA, bundle planning, and multi-intent journeys — each with procedural problem generation, a 12-axis difficulty curriculum, and algorithmically verifiable rewards. We train a Qwen 3 8B model with DAPO over 300 steps and present early results demonstrating that environment scaling and adaptive difficulty transfer to agentic, real-world task completion.
This project originated in the Pytorch OpenEnv Hackathon and is still evolving, follow us for updates 🔥
Why RL for shopping agents?
Large language models can hold fluent conversations, yet deploying them as shopping assistants reveals a persistent gap: fluency ≠ task completion. A customer who asks "find me a USB-C charger under $25 that ships in two days" needs an agent that invokes the right catalog search, filters on three hard constraints, avoids hallucinating product IDs it never retrieved, and handles follow-ups when the top result goes out of stock.
Supervised fine-tuning can teach surface-level tool use from demonstrations, but it cannot scale to the combinatorial space of constraint configurations, partial-information dialogues, and multi-step transactional workflows that real e-commerce demands.
Reinforcement learning with verifiable rewards (RLVR) offers an alternative: the agent optimises for outcomes — did the products satisfy the constraints? Was the cart correct? Was the return initiated for the right order line? The challenge is constructing reward functions that are both verifiable (no LLM-as-a-judge subjectivity) and adaptive (difficulty that grows with the policy's capability).
From RLVE-Gym to EcomRLVE-GYM
RLVE-Gym provides 400 environments for sorting, multiplication, Sudoku, and other algorithmic-reasoning tasks; however, those are all single-turn, text-in / text-out puzzles — extending to agentic domains was left as future work.
EcomRLVE-GYM fills that gap: we stay in the verifiable regime (e-commerce outcomes can be checked algorithmically) while extending to multi-turn, tool-augmented, agentic conversations — environments where the agent must act (call tools, modify world state) rather than merely reason (produce a text answer) and compensates for the deficiency of the search system.
EcomRLVE-GYM transforms customer-service outcomes structurally verifiable:

Every signal above can be evaluated by a program with access to the hidden ground-truth goal. No human annotation or LLM-as-a-judge is needed.
What a training episode looks like
Before we explain the framework, here is what a single EcomRLVE episode looks like at difficulty d = 4
The reward is fully computed by code: F1 over (product, variant, qty)
The eight environments
Each environment covers a distinct real-world shopping scenario. The agent must complete the task using tools (catalog search, cart operations, order lookups, policy queries) and is scored by a program — not a human or another LLM.
What the agent must do
Product Discovery
Find products that satisfy all the user's constraints
An item is out of stock — find a similar, compatible alternative
Add the exact products, variants, and quantities the user asked for
Return + Replacement
Identify the right order line, initiate a return, suggest a replacement
Resolve which order the user means and report its current status
Answer a deterministic question about store policy (return window, shipping rules, etc.)
Bundle Planning
Recommend a complete shopping list for a project within a budget
Multi-Intent Journey
Handle a conversation that chains 2–5 of the above tasks in sequence
Every environment uses the same three-part reward signal:
Task reward — did the agent actually complete the goal? (e.g., were the right products recommended, was the cart correct, was the right order tracked?)
Efficiency reward — did the agent complete it without wasting turns? Turns the user caused (asking a follow-up, confirming an action) don't count against the agent — only turns caused by agent mistakes do.
Hallucination penalty — did the agent only recommend products it actually retrieved during the session? Recommending product IDs that were never looked up is penalised, so the agent cannot invent results from memory.
Invalid outputs (malformed JSON, illegal tool calls) trigger an immediate failure score, creating a strong incentive for well-formed responses from step one.
Adaptive difficulty curriculum
A single difficulty number d

Here are four representative difficulty axes:
How many constraints the user has
How often the user omits a constraint
Fraction of search results that are distractors
Items that go out of stock mid-conversation
The other eight axes cover turn budget, input noise (typos, slang), context switches, retrieval depth, order-history size, policy complexity, and tool budget. The full breakdown is in the technical report.
Adaptive scheduling. Each environment tracks the agent's success rate independently and only advances to harder problems once the agent is passing the current level reliably. This keeps every environment training at the agent's capability frontier — avoiding both "too easy to learn from" and "too hard to make progress on".
Deep dive: Cart Building (E_CART)
Cart building is a good showcase because it requires the full search → inspect → clarify → act loop, has a binary ground truth, and introduces a challenge absent from most recommendation benchmarks: variant selection.
To succeed, the agent must develop five distinct skills:
What it means in practice
Product Discovery
Search the catalog with well-formed queries to find the right items
Variant Selection
Identify the correct color, size, or connector type — not just the right product
Cart Management
Add items with the exact variant and quantity the user asked for
Clarification Dialogue
Ask the user a focused follow-up when a request is ambiguous (e.g., missing size)
Multi-Item Orders
Handle shopping lists with several different products in a single conversation
The agent uses six tools to accomplish this:
Searches the product catalog with a natural-language query
catalog_get_variants
Returns available variants (color, size, connector, etc.) for a product
Adds a product to the cart with a specific variant and quantity
Reads the current cart so the agent can verify it matches the request
user_get_visit_history
Fetches recently viewed products by user
Sends a clarification question to the customer when a detail is missing
The generator samples 1–5 target products (scaling in difficulty with d
Search the catalog to find each product
Call catalog.get_variants
Add the correct (product_id, variant_id, qty)
Why variants matter
Real product catalogs have sparse variant data — many products have none, and those that do typically vary only by colour or size. To create a richer discrimination task, we synthesize variants at episode initialization:
A per-category priority list picks the most natural attribute to vary (electronics → connector_type
For each target product, we generate 3 variants: 1 target + 2 plausible distractors. An "Anker 65W USB-C Charger" produces {USB-C, Lightning, HDMI}
The verifier checks composite keys (product_id, variant_id)
Difficulty scaling
Variant required
catalog.search → cart.add
The cart must be exactly right — correct product, correct variant, correct quantity. Partial credit is given for partially correct carts, but a perfect score requires every item to match. If the agent adds the wrong variant, the simulated user corrects it mid-dialogue ("that's the Lightning version, but I need USB-C"), giving the agent a chance to self-correct before the episode ends.
Trajectories: easy vs. hard
Two real E_CART episodes from a Qwen 3 8B agent. Same environment, same agent — difficulty alone changes the game.
d = 1 — 1 item, no variants
d = 8 — 3 items, variants + typos
"Shopping list: SonicWave Keypad. Please add everything."
"pls add the following to my aart: Eco-Frienly HrenLefa Charger by GreenLeaf, High-Performance AqaPure Air Fryer , Lighrweiht PixelVault Tank Top (3)." — typos from noise axis
user.get_visit_history()
user.get_visit_history()
cart.add("syn_000162", qty=1)
No tool calls — presents 3 product cards. User: "Add the Charger with 100W output, Air Fryer with Charcoal filter, 3 Tank Tops in size XS."
answer: { "done": true }
catalog.get_variants
cart.add(charger, "100W", qty=1)
cart.add(fryer, "Bamboo", qty=1)
cart.add(tank_top, "size_XL", qty=3)
Re-fetches tank top variants, adds 2× XS — doesn't fix the air fryer. User: "Air Fryer still shows Bamboo. I need three XS, not two."
Re-fetches tank top variants again — still ignores the air fryer. User: "Please change the Air Fryer variant."
"I cannot find a Charcoal filter variant." — It exists; the agent saw it in turn 3 but never selected it. User: "Skip the Air Fryer then."
answer: { "done": true }
Cart matches goal. 3 turns, 2 effective.
Wrong variants, wrong quantities, user gave up. 8 turns, 6 effective.
At d=1 the agent solves the task in 3 clean turns. At d=8 it spirals — picking Bamboo instead of Charcoal, XL instead of XS, never fixing the air fryer despite two user corrections, then hallucinating that the variant doesn't exist. This is exactly the kind of multi-step error cascade that the difficulty curriculum surfaces, and that adaptive training should teach the agent to recover from.
User simulation
A verifiable environment needs a user simulator that behaves realistically. We use Qwen3.5 (9.7B) to generate natural, varied user messages rather than canned templates — covering everything from typo-filled requests to mid-conversation topic switches.
Two design choices matter for training quality:
Preferences match stated constraints. Each simulated user has a hidden set of preferences (price sensitivity, brand loyalty, shipping speed, etc.). These are deliberately biased toward whatever constraints the user communicated — so if the user said "under $25", the reward function actually cares about price. Without this, an agent could be penalised for correctly following the user's instructions.
Strategic omission. The LLM deliberately withholds some constraints from the opening message to force the agent to ask clarifying questions. The system tracks exactly what was and wasn't mentioned, so the agent is never penalised for information it was never given.
Environment scaling
Following RLVE's methodology, we define nested environment collections:
C1 ⊂ C2 ⊂ C4 ⊂ C8
Serarch Query Formulation, Cart Manipulation
Similarity reasoning under constraints
+ Product Discovery, Returns
Transactional workflows (Retrieval + recommendation, return initiation)
+ Status, Policy, Bundle, Journey
Knowledge retrieval, planning, compositionality
We hypothesise — consistent with RLVE's findings — that C8 agents outperform single-environment specialists, even on the specialist's own task.
We trained Qwen 3 8B with DAPO on C1 (Cart Building) for 300 steps as an initial viability study.
DAPO (G = 8 rollouts/prompt)
2M products, FAISS index with Alibaba-NLP/gte-modernbert-base

We saw progressive growth in difficulty reached, confirming that adaptive scheduling produces a steady learning signal rather than the saturation (static-low) or starvation (static-high) patterns predicted by the RLVE paper.
Try it yourself
Run a live episode directly in your browser using the embedded demo below. Here is how to get started:
Pick an environment from the dropdown (e.g., E_CART
Set a difficulty — 0
Click "Reset Episode" — the simulated user will open with a shopping request.
You are the agentnow: Make tool calls, analyse outputs and submit the final list of product ids.
Click "Reset Episode" between runs to start a fresh scenario.
The environments, verifiers, and training configs are all open-source:
git clone https://github.com/owlgebra-ai/EcomRLVE-Gym cd EcomRLVE-Gym pip install -e .
The 2M-product catalog is on the Hub:
from datasets import load_dataset catalog = load_dataset("owlgebra-ai/Amazebay-catalog-2M", split="train") print(f"{len(catalog)} products loaded")
Zeng, Z., Ivison, H., Wang, Y., et al. (2025). RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments. ICML 2025. arXiv:2511.07317
Yu, Q., Zhang, Z., Zhu, R., et al. (2025). DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv:2503.14476
Shao, Z., Wang, P., Zhu, Q., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300
DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning in LLMs through Reinforcement Learning. Nature.
Meta AI. (2024). Llama 3.1: A Foundation Model for General Intelligence. llama.meta.com
Qwen Team. (2025). Qwen3 Technical Report. arXiv:2505.09388

関連記事
LLMアーキテクチャを理解するための私のワークフロー
著者が記事や講演、LLM-Galleryで使用するLLMアーキテクチャの図面作成ワークフローを公開した。公式技術文書から始めるが、最近の論文は詳細不足のため、公開されたモデル重みから推測する手法を説明している。
3D プリンタ対応の人間型ロボット脚がロボティクス実験を加速
Hugging Face が公開した約 2,500 ドルの安価な 3D プリント製人間型ロボット脚により、研究者は実世界での AI ロボットソフトウェアテストと訓練を容易に行えるようになった。
アリババの「Qwen 3.7 Max」が Vercel AI Gateway で利用可能に
アリババが開発した大規模言語モデル「Qwen 3.7 Max」が、Vercel の AI ゲートウェイで正式に利用可能となりました。このモデルはコーディングやオフィスワークの自動化など、長期的な自律実行を支援するエージェント基盤として設計されています。