LangSmithとLangChain OSSがEU AI法要件への適合を支援
LangChain Blog は、EU AI Act の遵守期限(2026 年 8 月)に向けて、高リスク AI システムの要件を満たすための LangSmith と LangChain OSS の具体的な機能と実装戦略を解説している。
キーポイント
EU AI Act の遵守期限と罰則
2026 年 8 月 2 日がコンプライアンス期限であり、違反した場合の罰則は最高 1500 ユーロまたは全世界年間売上の 3% と極めて厳しい。
高リスク AI システムの定義と対象範囲
信用スコアリング、医療機器、採用、生体認証、重要インフラなどの分野で利用されるエージェントや AI システムが特に厳格な規制の対象となる。
必須要件:リスク管理と監査証跡
開発ライフサイクル全体にわたるリスク管理体制の構築、システム動作の自動イベントログ記録、およびデプロイヤーへの透明性確保が法的に義務付けられている。
LangSmith と OSS による実装支援
エージェントの多段階意思決定プロセスをトレースし、ツール呼び出しや推論経路を含む完全な実行キャプチャを提供することで、規制要件への適合を技術的に支援する。
影響分析・編集コメントを表示
影響分析
この記事は、EU AI Act という世界的な規制が実務レベルでどのように適用されるかを明確にし、開発者が単なるコンプライアンス対応から技術的実装への移行を迫られている現状を示しています。特にエージェント型 AI の普及に伴い、意思決定の透明性と監査可能性が法的義務となったことで、LangSmith などの観測ツールの必須化が進むことが予想されます。
編集コメント
規制対応が単なる法務部門の課題から、エンジニアリングチームの必須業務へと急速にシフトしていることを示す重要な記事です。実装レベルでの対策を講じない企業は、市場参入自体が不可能になるリスクがあります。
image.png)
EU AI Act(欧州連合人工知能法)の遵守期限は2026年8月2日です。
EU AI Actは、AIシステムに関する初の包括的な規制です。金融サービス、医療、人事、製造業、重要インフラなどにおいて、EU内で高リスクAIシステムを構築または展開している場合、時間との戦いです。高リスク規定への不遵守は、1,500万ユーロまたは全世界の年間売上高の3%(いずれか高い方)という罰則を伴います。リスク管理システム、自動イベントログの記録、展開者への透明性の確保、人間の監督メカニズム、市場導入後の監視、およびインシデント報告がすべて運用可能である必要があります。
多くのチームはポリシー策定に取り掛かっていますが、それを裏付ける運用インフラの構築も必要です。
この法は、信用スコアリング、医療機器、採用、生体認証識別、重要インフラ、法執行などにおいて使用されるシステムとして定義されている高リスクAIシステムを対象としています。これらのカテゴリのいずれかでエージェントを構築している場合、要件はリスク管理システムの確立、エージェントの行動のログ記録、展開者に対する出力の透明性確保、人間の介入可能性の維持、および展開後の行動継続的な監視です。
これらの要件は、推論を行い、コンテキストを取得し、ツールを呼び出し、多段階の意思決定を行うすべてのAIシステム(エージェントを含む)を対象として記述されています。
以下では、EU AI Act(欧州連合人工知能法)が求める要件と、LangSmithおよびLangChain OSS製品が各要件を満たすためにどのように支援するかを詳しく解説します。簡易な対応表については、記事末尾のテーブルをご覧ください。
観測可能性とトレーシング:完全な実行キャプチャ
規制当局は、AIシステムが行った行動の記録を求めています。マルチステップの意思決定を行うエージェントの場合、入力、推論プロセス、ツール呼び出し、出力を含む完全なスレッドをトレースすることがベストプラクティスとされています。
法が求める要件:
- 第9条は、開発ライフサイクル全体を通じた動的なリスク管理システムの構築を要求しています
- 第12条は、リスクの特定、市場監視後のモニタリングの支援、デプロイヤーによる運用上の監督を可能にするために、システム寿命全体にわたる自動イベントログの記録を要求しています
- 第13条は、追跡可能で解釈可能な意思決定を要求しています
LangSmithは、エージェントの実行のすべてのステップに対して完全な観測可能性と評価ツールを提供します。
LangSmithが提供する機能:
- エンドツーエンドのトレーシングは、構造化されたメタデータ(入力、出力、タイムスタンプ、エージェントのコンテキスト)を用いて、すべてのLLM呼び出し、ツール呼び出し、推論ステップをキャプチャします。
- LangSmith Studioは、状態遷移やツール呼び出しを含む完全な実行グラフを可視化し、エージェントの意思決定プロセスをステップごとに検証できるようにします。
- LangSmith Insights Agentはトレーシングデータを処理し、反復して現れるパターンを自動的に特定およびクラスタリングすることで、手動レビューが必要だったであろう失敗モードや使用トレンドを浮き彫りにします。
- カスタムダッシュボードはリスクスコアを追跡し、指標が設定した閾値を超えた場合にPagerDutyやWebhookを通じてアラートをトリガーします。
保持とストレージ:
セルフホスティング、BYOC(Bring Your Own Cloud)、およびマネージドクラウドのデプロイメントオプションにより、ログの保存場所と保持期間を制御できます。
マネージドクラウドでは、基本トレーシングは14日間保持され、短期間のデバッグやアドホックな分析を目的としています。拡張トレーシングは400日間保持され、継続的なモデルの改善、評価、人間のフィードバックを意図しています。基本トレーシングはいつでも拡張にアップグレードでき、長期アーカイブのためにトレーシングデータをバクスエクスポートすることも可能です。
EUのデータ居住性要件に特に対応するため、LangSmith EUはすべてのトレーシングデータを管轄区域内に保持します。セルフホスティングやBYOCオプションでは、スタック全体がKubernetesクラスターまたはクラウドリージョン内で実行されます。データはお客様の境界外に出ることはありません。
評価者:継続的な品質および安全性スコアリング
EU AI Act(人工知能法)では、本番環境のトラフィックに対する評価を含む継続的な測定が求められています。
法で求められる要件: 複数の条項において、エージェントの出力に対する継続的な測定が要求されています。
- 第10条では、開発およびテストデータセット全体におけるデータガバナンスとバイアス検査が義務付けられています
- 第13条では、デプロイヤーが出力を解釈し適切に使用できる程度の透明性がシステムに求められるとされています
- 第15条では、宣言された精度レベルおよび関連する精度指標、敵対的耐性(adversarial resilience)、一般的な攻撃面に対する保護が義務付けられています
LangSmithのオンライン評価者は、あなたが定義したフィルターを用いて、本番環境のトレース(trace)の設定済みサンプルを継続的にスコアリングします。各スコアは完全なトレースコンテキストとともにログに記録され、証拠の連鎖(evidence trail)を提供します。特定の指標が閾値を超えた場合、PagerDutyやWebhookを通じてアラートが発火します。
LangChainの提供機能: LangSmithは、これらのすべての領域において事前構築された評価者(evaluator)を提供しています:
- 人種、性別、年齢、宗教、国籍、障害、性指向などの特性に基づくバイアスと公平性
- 個人や集団に対する毒性
- 機密画像および露骨なコンテンツ
- ユーザーを誤解させる出力を検出するためのハルシネーション(幻覚)と回答の関連性
- 機密属性の偶発的な露出を示すためのPII(個人識別情報)漏洩
- 敵対的な入力の検出のためのプロンプトインジェクションおよびジャイルブレイキング
- ツール呼び出しエージェントにおける一般的な攻撃対象をカバーするAPI漏洩およびコードインジェクション
- 正確性の測定のための正解率、完全一致、計画遵守、タスク完了
- エージェントの意思決定品質を評価するためのツール選択と計画遵守
すべての評価器はカスタマイズ可能であり、ユースケース固有の動作に対して新しい評価器を作成できます。
人間の監督:中断、レビュー、エスカレーション
人間の監督は、この法案の主要な原則の一つです。AIシステムによって下される重大な決定は、人間によって異議を唱えられ、修正可能でなければなりません。実務的には、これは介入が行われたことを示す監査証拠とともに、明確なエスカレーションパス、構造化されたレビューワークフローを備えたアーキテクチャへの監督の組み込みを意味します。
アジェンティックシステムにおいては、この要件はさらに重要な意味を持ちます。複数ステップの意思決定を行うエージェントは、人間がエラーに気づく前に誤りを増幅させる可能性があります。場合によっては、監督メカニズムを実行グラフ自体に組み込む必要があります。
法案が要求すること: 第14条では、人間がシステムを理解し、介入し、上書きし、中断できることが求められています。
LangSmith が提供するもの:
- LangGraph の interrupt(中断)プリミティブにより、ヒューマン・イン・ザ・ループ(HITL:人間関与型)はエージェントグラフにおける第一級の構成要素となります。実行を一時停止し、状態を検証・修正した後、任意のノードから再開することが可能です。
- LangSmith Deployment は、その下位に堅牢なランタイムを提供します。自動チェックポイント作成、正確に一度だけの実行(exactly-once execution)、および一時停止した実行からの正確な地点からの再開機能により、本番環境における信頼性の高い HITL 中断を実現します。
- アノテーションキュー(注釈キュー)は、本番環境のトレースを人間によるレビュー担当者にルーティングし、構造化されたフィードバックを受け取ります。
- 評価者が定義された閾値を超えた場合や、中断イベントが発生した場合にウェブフックがトリガーされ、PagerDuty やその他の好ましいインシデント対応システムを通じて適切な担当者に通知(ページング)を行うことができます。
開始地点
8月2日が近づいています。高リスク AI システムを運用しているチームにとって、LangSmith がどのようにして同法の主要な技術要件を満たすのを支援するかを示します。
観測可能性(Observability)とトレースは基盤です。すべてのツール呼び出し、検索ステップ、推論ノードにわたる完全なトレースにより、監査証跡が得られ、評価を実行する基盤となります。
本番トラフィックに対する評価(Evaluations)には、バイアス、幻覚(ハルシネーション)、有害性、正確性、および敵対的入力に対するスコアリングが含まれ、同法の市場監視後の要件に対応します。
ヒューマン・イン・ザ・ループ(HITL)はアーキテクチャ上の要件です。同法では、人間がシステムに対して介入、上書き、中断を行うことができることが求められています。LangGraph の interrupt プリミティブと LangSmith のアノテーションキューにより、このメカニズムは監査可能となります。
EUのデータ居住要件を満たすためには、デプロイメント方法も重要です。LangSmithのEU SaaS、BYOC(Bring Your Own Cloud)、および完全なセルフホスティングオプションは、本番環境でのエージェントワークロードに対応するために設計されています。適切な選択は、必要な運用上の制御の程度によって異なりますが、トレードオフについて詳しくご案内する用意がございます。
これらは、チームが本番環境でエージェントを適切に運用するためにすでに従っている同じプラクティスです。
- LangSmithの始め方
- LangSmithのエキスパートとの相談
- 信頼センターの探索
記事クロスウォーク
EU AI Actの記事
要件
LangSmith + LangChain OSSの機能
Art. 9
ライフサイクル全体におけるリスク管理システム
オンラインモニタリング、カスタム評価者、アラート閾値
Art. 10
データガバナンス、バイアス防止
バイアスおよび公平性評価者
Art. 12
システム寿命全体にわたる自動イベントログ
タイムスタンプ付きトレースストレージ
Art. 13
透明性および解釈可能な出力
完全な推論トレース
Art. 14
人間の監督および介入
LangGraph HITL、注釈キュー、ウェブフック
Art. 15
正確性指標、敵対的耐性、一貫性
正しさ、敵対的評価者
Art. 72
市場放出後のモニタリング
オンライン評価、ドリフト検出、ダッシュボード
関連コンテンツ
image.png)
ケーススタディ
LangSmith
Credit GenieがInsights Agentを活用してAI金融アシスタントを改善した方法




D. Li,
J. Ngai,
G. Lozano Palacio,
C. Yuan
2026年4月20日
5分
image.png)
エージェントアーキテクチャ
パートナー
エージェントエンジニアリング:AIエージェントの群れがソフトウェアエンジニアリングを再定義する方法


R. Kumar,
P. Ramagopal
2026年4月17日
6分

エージェントアーキテクチャ
ディープエージェント
オープンソース
バックグラウンドでサブエージェントを実行する


H. Lovell,
C. Francis
2026年4月16日
4分
エージェントの実際の動作を確認する
LangSmithは当社のエージェントエンジニアリングプラットフォームであり、開発者がすべてのエージェントの意思決定をデバッグし、評価の変更を確認し、ワンクリックでデプロイすることを支援します。
原文を表示
.png)
The EU AI Act compliance deadline is August 2, 2026.
The EU AI Act is the first comprehensive regulation for AI systems. If you're building or deploying a high-risk AI system in the EU, for example in financial services, healthcare, HR, manufacturing, or critical infrastructure, the clock is running. Non-compliance with the high-risk provisions carries penalties up to €15M or 3% of total worldwide annual turnover, whichever is higher. Risk management systems, automatic event logging, transparency to deployers, human oversight mechanisms, post-market monitoring, and incident reporting all need to be operational.
Many teams have started the policy work but you also need to build the operational infrastructure to back it up.
The Act targets high-risk AI systems, defined as systems used in credit scoring, medical devices, recruitment, biometric identification, critical infrastructure, law enforcement, and more. If you're building agents in any of these categories, the requirements are to establish a risk management system, log agent actions, make outputs transparent to deployers, keep humans able to intervene, and monitor behavior continuously after deployment.
Those requirements were written for all AI systems, including agents, that reason, retrieve context, call tools, and make multi-step decisions.
Below, we break down what the EU AI Act requires, and how LangSmith and LangChain OSS products help you meet each requirement. For a quick crosswalk, see the table at the end.
Observability and tracing: Full execution capture
Regulators want a record of the actions an AI system takes. For agents making multi-step decisions, good practice is to trace the full thread, including inputs, reasoning, tool calls, and outputs.
What the Act requires:
- Article 9 requires a living risk management system across the development lifecycle
- Article 12 requires automatic event logging over the system's lifetime, sufficient to identify risks, support post-market monitoring, and enable operational oversight by deployers
- Article 13 requires traceable, interpretable decisions
LangSmith gives you full observability and evaluation tools for every step of your agent's execution.
What LangSmith provides:
- End-to-end tracing captures every LLM call, tool invocation, and reasoning step with structured metadata: inputs, outputs, timestamps, and agent context.
- LangSmith Studio visualizes the full execution graph, including state transitions and tool calls, so you can inspect the agent's decision-making process step by step.
- LangSmith Insights Agent processes trace data to automatically identify and cluster recurring patterns, surfacing failure modes and usage trends that would otherwise require manual review.
- Custom dashboards track risk scores and trigger alerts through PagerDuty or webhooks when a metric crosses your threshold.
Retention and storage:
Self-hosted, BYOC, and managed cloud deployment options give you control over where logs live and how long they're retained.
In managed cloud, base traces are retained for 14 days, designed for short-term debugging and ad-hoc analysis. Extended traces are retained for 400 days, intended for ongoing model improvement, evaluation, and human feedback. You can upgrade base traces to extended at any time, and bulk export trace data for long-term archival.
For EU data residency requirements specifically, LangSmith EU keeps all trace data in-jurisdiction. With self-hosted and BYOC options, the entire stack runs in your Kubernetes cluster or cloud region. Your data never leaves your perimeter.
Evaluators: Continuous quality and safety scoring
The EU AI Act requires ongoing measurement, with evaluations on production traffic.
What the Act requires: Several articles demand ongoing measurement of your agent's outputs:
- Article 10 requires data governance and bias examination across development and testing datasets
- Article 13 requires that systems be transparent enough for deployers to interpret outputs and use them appropriately
- Article 15 requires declared levels of accuracy and relevant accuracy metrics, adversarial resilience, and protection against common attack surfaces
LangSmith's online evaluators continuously score a configurable sample of production traces, with filters you define. Each score is logged with full trace context, giving you an evidence trail. When a metric crosses a threshold, alerts fire through PagerDuty or webhooks.
LangSmith provides prebuilt evaluators across all of these areas:
- Bias and fairness based on characteristics like race, gender, age, religion, nationality, disability, and sexuality
- Toxicity toward individuals or groups
- Sensitive imagery and explicit content
- Hallucination and answer relevance to catch outputs that mislead users
- PII leakage to flag accidental exposure of sensitive attributes
- Prompt injection and jailbreaking for adversarial input detection
- API leakage and code injection covering common attack surfaces in tool-calling agents
- Correctness, exact match, plan adherence, and task completion for accuracy measurement
- Tool selection and plan adherence to score agent decision quality
Every evaluator is customizable, and you can create new ones for behaviors specific to your use case.
Human oversight: Interrupt, review, and escalate
Human oversight is one of the Act's core principles. Consequential decisions made by AI systems should remain contestable and correctable by people. In practice, that means building oversight into the architecture with defined escalation paths, structured review workflows, and audit evidence that intervention happened.
For agentic systems, this carries extra weight. An agent making multi-step decisions can compound errors before a human has a chance to catch them. In some cases, oversight mechanisms need to be embedded in the execution graph itself.
What the Act requires: Article 14 requires that humans can understand, intervene on, override, and interrupt the system.
What LangSmith provides:
- LangGraph's interrupt primitive makes human-in-the-loop (HITL) a first-class part of the agent graph. You can pause execution, inspect state, modify it, and resume at any node.
- LangSmith Deployment provides the durable runtime underneath: automatic checkpointing, exactly-once execution, and resume-from-exact-point recovery for paused runs. This ensures reliable HITL interrupts in production.
- Annotation queues route production traces to human reviewers for structured feedback.
- Webhooks fire when evaluators exceed defined thresholds or interrupt events occur, so you can page the right person through PagerDuty, or your preferred incident response system.
Where to start
August 2 is close. For teams running high-risk AI systems, here's how LangSmith helps you meet the Act's core technical requirements.
Observability and tracing are the foundation. Full tracing across every tool call, retrieval step, and reasoning node gives you the audit trail and the foundation to run evaluations.
Evaluations on production traffic, including scoring for bias, hallucination, toxicity, accuracy, and adversarial inputs, address Act's post-market monitoring requirements.
Human-in-the-loop is an architectural requirement. The Act requires that humans can intervene on, override, and interrupt the system. LangGraph's interrupt primitive and LangSmith's annotation queues make that mechanism auditable.
To meet EU data residency requirements, deployment matters too. LangSmith's EU SaaS, BYOC, and full self-hosted options are designed for agent workloads in production. The right choice depends on how much operational control you need, and we're happy to walk through the tradeoffs.
These are the same practices that teams already follow to run agents well in production.
- Get started with LangSmith
- Speak to a LangSmith expert
- Explore the trust center
Article crosswalk
EU AI Act article
Requirement
LangSmith + LangChain OSS capability
Art. 9
Risk management system throughout lifecycle
Online monitoring, custom evaluators, alert thresholds
Art. 10
Data governance, bias prevention
Bias and fairness evaluators
Art. 12
Automatic event logging over the system’s lifetime
Trace storage with timestamps
Art. 13
Transparency and interpretable outputs
Full reasoning traces
Art. 14
Human oversight and intervention
LangGraph HITL, annotation queues, webhooks
Art. 15
Accuracy metrics, adversarial resilience, and consistency
Correctness, adversarial evaluators
Art. 72
Post-market monitoring
Online evaluation, drift detection, dashboards
Related content
.png)
Case Studies
LangSmith
How Credit Genie used Insights Agent to improve their AI financial assistant




D. Li,
J. Ngai,
G. Lozano Palacio,
C. Yuan
April 20, 2026
5
min
.png)
Agent Architecture
Partner
Agentic Engineering: How Swarms of AI Agents Are Redefining Software Engineering


R. Kumar,
P. Ramagopal
April 17, 2026
6
min

Agent Architecture
Deep Agents
Open Source
Running Subagents in the Background


H. Lovell,
C. Francis
April 16, 2026
4
min
See what your agent is really doing
LangSmith, our agent engineering platform, helps developers debug every agent decision, eval changes, and deploy in one click.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み