AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Claude Blog·2026年4月8日 09:00·約11分で読める

Carta HealthcareがAIに臨床抽象化担当者のように推論させる方法

#医療AI#LLM応用#コンテキストエンジニアリング#臨床データ抽象化#企業向けAI#Anthropic
TL;DR

Carta Healthcare社はClaudeを活用した臨床データ抽象化プラットフォーム「Lighthouse」を開発し、従来のルールベースシステムでは困難だった臨床文書の文脈理解と推論を実現し、年間22,000件の手術症例を99%の精度で処理できるようになった。

AI深層分析2026年4月9日 05:44
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

臨床データ抽象化の課題解決

病院が臨床レジストリに提出する標準化データの作成には膨大な時間がかかり、従来の自動化ツールでは文脈理解が困難だったが、Carta Healthcareが開発したLighthouseプラットフォームがこの課題を解決した。

2

AIによる臨床推論の実現

Claudeを活用することで、訓練された抽象化担当者と同様に臨床文書を横断的に推論し、手順開始時間の特定や投薬タイミングの区別など、複雑な臨床判断を自動化できるようになった。

3

コンテキストエンジニアリングの重要性

モデル能力と同等にコンテキストエンジニアリングが重要であり、適切な文脈設定によってAIシステムの実用化とスケーリングが可能になることが示された。

4

実績と精度の達成

プラットフォームは年間22,000件の手術症例を処理し、125以上の病院をサポートしながら99%の精度を達成し、10倍の成長を遂げている。

5

従来のNLPやルールベース手法の限界

臨床文書の一貫性のなさや、文脈に応じた判断が必要なため、パターン認識やルールベースの自動化では臨床判断を再現できない。

6

LLM導入による臨床抽象化の再現

Carta Healthcareは、文脈を理解し、複数文書の矛盾する証拠を考慮し、時間的論理を適用するなど、訓練された臨床抽象化担当者と同様の推論をLLMで実現するためにClaudeを採用した。

7

コンテキスト構築の重要性

Carta Healthcareでは、AIに適切な情報(正しい文書、時間枠、優先順位)をランタイムで組み立てるパイプラインの構築が重要であり、完璧なプロンプトでもコンテキストが不適切だと悪い結果を生む。

影響分析・編集コメントを表示

影響分析

この事例は、生成AIが専門知識を要する複雑な業務プロセスに実用的に適用できることを示しており、医療データ管理の効率化と標準化に大きな影響を与える可能性がある。特に、コンテキストエンジニアリングの重要性が強調されており、他の産業分野へのAI導入にも重要な示唆を提供している。

編集コメント

医療現場の実務課題に対して生成AIが具体的な解決策を提供した成功事例として、業界の関心を集める内容。特にコンテキスト設計の重要性が明確に示されており、AI実装のベストプラクティスとして参考になる。

タイトル: Carta HealthcareがAIに臨床アブストラクターのように推論させる方法

年間22,000件の外科症例を処理する臨床データアブストラクションプラットフォームの内部——そしてコンテキストエンジニアリングを適切に行うことでチームが99%の精度を達成した方法

カテゴリー: エンタープライズAI

製品: Claude Platform

日付: 2026年4月8日

読了時間: 5分

共有: リンクをコピー https://claude.com/blog/carta-healthcare-clinical-abstractor

新シリーズ「スタートアップはClaudeでどう構築するか」では、急成長組織がAIで業界を変革している方法を紹介します。本記事では、Carta Healthcareの臨床データアブストラクションプラットフォーム「Lighthouse」の構築から得られたエンジニアリングの教訓、そして大規模なAI駆動システムを構築する際に、モデル能力と同様にコンテキストエンジニアリングが重要である理由を共有します。

概要

Carta Healthcare

Amazon Bedrock上のClaude

過去3年間で10倍成長、125以上の病院をサポート

臨床レジストリは、共通の診断、処置、または状態を共有する患者に関する標準化されたデータを収集します。病院は結果をベンチマークし、ケアのギャップを特定し、品質改善を推進するためにレジストリにデータを提出します。しかし、レジストリの価値は投入されるデータの質に依存し、そのデータを生成することは見た目よりも困難です。

患者記録をレジストリ対応データに変換することを臨床データアブストラクションと呼びます。訓練を受けたアブストラクターはカルテを読み通し、医師の記録を解釈し、矛盾する文書を調整し、記録が明確でない場合には臨床判断を適用します。通常の症例には60分かかり、複雑な症例では5〜6時間かかることもあります。大規模な医療システムでは、単一のレジストリプログラムだけで年間11,000時間以上の熟練労働が必要になります。

従来の自動化ツールはこのギャップを埋めることができませんでした。ルールベースシステムとNLPは予測可能な文書を処理できますが、臨床言語はめったに予測可能ではありません。同じ所見が、ある病院では構造化フィールドとして現れ、別の病院では自由記述テキストに埋もれている可能性があります。エッジケースが増え、文脈が重要になり、間違えた場合のコストは単なる悪い推奨ではなく、レジストリ全体を損なう欠陥のある品質データです。

このギャップこそ、臨床データ管理ソリューションであるCarta Healthcareが大規模に埋めるためにソフトウェアを構築したものです。彼らのプラットフォーム「Lighthouse」は、訓練を受けたアブストラクターと同じ方法で臨床文書を推論するためにClaudeを使用します。

この過程で彼らが発見したことは、彼らのアプローチを再形成し、AIをパイロットから本番環境に移行させようとするあらゆるチームに青写真を提供しました。

ルールベース抽出から臨床推論へ

レジストリアブストラクターが答える質問は、データベース内の単純な検索ではありません。

例えば、「処置前の最新の血糖値は何でしたか?」という質問に答えるには、正確な処置開始時刻を知り、それに先行する検査値を特定する必要があります。「退院時にアスピリンが処方されましたか?」という質問には、患者が自宅に持ち帰るために処方された薬剤と、入院中に投与された薬剤を区別する必要があります。

明白なアプローチは、これらの判断をルールで自動化することです。臨床医が特定の所見をどのように文書化するかをマッピングし、それらのパターンに基づいて抽出ロジックを構築し、そこから拡大します。しかし、臨床文書はこのアプローチが機能するほど一貫していません。同じ臨床所見が、ある病院では構造化フィールドとして、別の病院では臨床記録の自由記述テキストとして文書化されます。

Carta Healthcareの初期システムは、レジストリデータを自動抽出するために自然言語処理(NLP)を使用していました。パターン認識は、臨床判断を再現できないことが判明しました。

「Carta Healthcareが数年前にNLPで始めたのはまさにそこであり、LLMに移行した理由もそこにあります」と、Carta Healthcareの応用AIアプリケーションマネージャーであるハンナ・グラーザーは言います。推論を正しく行うことは極めて重要です。なぜなら、3人のアブストラクターが同じ心臓症例をレビューし、異なるが正当化可能な答えに到達することがあるからです。医師の記録は一方を指し、画像検査は別のものを示します。正しい答えは両方を考慮する必要があり、それはルールで解決できる問題ではありません。

「AIシステムが理解する必要があるのは、訓練を受けた臨床アブストラクターが理解するもの、つまり文脈の中で臨床言語を読み解き、文書間で矛盾する証拠を考慮し、特定の処置日に対して時間的論理を適用し、曖昧さを処理する方法です」とグラーザーは言います。「体重が処置後に評価された場合、熟練したアブストラクターはそれが処置前体重としてカウントされないことを知っており、システムもそれを知る必要があります。」

Carta HealthcareはClaudeに落ち着く前にいくつかのモデルを評価しました。

「私たちが評価した他のモデルは、臨床文書を理解し解釈する同じ能力を示しませんでした」とグラーザーは言います。

PrevPrev0/5NextNexteBook医療・生命科学のためのエンタープライズAI変革ガイド

AnthropicのHCLS顧客からの実証済み戦略であなたのエンタープライズAI変革を加速しましょう。

適切なコンテキストを構築する

Lighthouseが抽出するすべてのデータポイントは、正しく答えるために異なるソース文書、異なる時間枠、異なる量のコンテキストを必要とします。

これがコンテキストエンジニアリングの核心的な課題です。AIエージェントのパフォーマンスは、モデルだけで決まるのではありません。モデルに与えられるものによって決まります。不完全で順序付けられていない、または範囲が不適切な情報が与えられれば、世界最高のプロンプトでも性能が低下します。コンテキストを適切にすること——何を含め、何を除外し、どの順序で提示するか——が、プロトタイプと本番システムを分けるエンジニアリング作業です。

処置前体重を例にとりましょう。要件は「記録内の体重を見つける」ことではありません。「特定の処置開始時刻前に文書化された体重を見つける」ことです。最新の体重が手術の2日後に記録されているかもしれません。その値は無効です。

Carta Healthcareのシステムは、ランタイムに患者固有のコンテキストを組み込むため、Claudeは各質問に対して正確な時間境界を持ちます。処置前血糖値のプロンプトは処置開始時刻を指定し、その時点前の最新の血糖値を求めます。この特異性がなければ、強力なモデルでも不完全な情報から作業することになり、訓練を受けたアブストラクターならすぐに気づくでしょう。「私たちが解決した最も難しい問題は、完璧なプロンプトを構築することではなく、コンテキスト構築に関するものでした」と、Carta Healthcareのソフトウェアエンジニアリングマネージャーであるマシュー・マッツァンティは言います。Carta Healthcareチームにとって、困難な作業は、ランタイムに適切な情報——適切な文書、適切な時間枠、適切な優先順位——を組み立てるパイプラインを構築することでした。「適切なタイミングで適切なデータを統合、整理、提示することが本当の仕事です。悪いコンテキストで完璧に書かれたプロンプトは悪い答えを出します。適切なコンテキストを持つ単純なプロンプトが必要な結果を提供します」とマッツァンティは言います。

同じ立場にあるチームへのグラーザーのアドバイスは?まず、モデルに推論に必要なものを与えているか、それとも利用可能なものから理解させるように求めているかを問いかけることから始めてください。

「何かが性能不足の場合、特定のプロンプト、コンテキストの問題、または検索ギャップに遡って特定できます。集計スコアを見つめて何が悪かったのか悩むのではなく」とマッツァンティは言います。「評価フレームワークを早期に構築し、詳細にし、変数を分離するように設計してください。これをスキップすると、構築よりもデバッグに多くの時間を費やすことになります。」

ある大規模医療システムでは、Lighthouseは14の病院で年間22,000件以上の外科症例を処理し、評価者間信頼性が98〜99%に達しました。これはアブストラクション精度の業界標準指標です。

臨床専門知識をループに組み込む

コンテキスト構築が確固たるものになれば、臨床文書を最もよく理解する人々がシステムの動作を形成し始めることができます。

アブストラクターとの信頼構築は透明性に帰着しました。Lighthouseはブラックボックスではありません。抽出するすべてのデータポイントについて、アブストラクターは裏付けとなる証拠とClaudeの理論的根拠を見ることができます。彼らは出力を受け入れるのではなく、所見を検証し、臨床判断を行使できます。

そこから、プロンプティングは臨床専門知識が直接Claudeの推論方法を形成するメカニズムになります。アブストラクターが特定のレジストリデータポイントが正しく抽出されていないことを発見したとき、その理由——エッジケース、文書パターン、プロンプトが欠落しているもの——の説明が、Claudeがそのフィールドを処理する方法への直接的な入力になります。

コンテキストエンジニアリングを早期に優先することで、Carta Healthcareはその説明を修正されたプロンプトに変換し、同じ日にリリースします。

「私たちの臨床アブストラクターは、特定のデータポイントが実際にどのように機能するかについての長い説明を定期的に手渡してくれます」とグラーザーは言います。「それをデータサイエンスモデルやカスタムコードに変換するのに数週間を費やす代わりに、そのフィードバックを直接プロンプトに使用します。かつてはレジストリごとに数か月のエンジニアリングと品質保証(QA)を要していたものが、今では1週間でリリースできます。」

Carta Healthcareのアブストラクターの一人が言ったように:「Lighthouseは私の判断を置き換えるものではありません。それを強化するものです。」

詳細については、Carta Healthcareの完全なストーリーをお読みください。

Claudeで構築するチームのための製品ニュースとベストプラクティスをさらに探求しましょう。

1MコンテキストがOpus 4.6とSonnet 4.6で一般提供開始

製品発表 2026年3月11日

Claude for ExcelとPowerPointの進化

エンタープライズAI 2026年2月24日

金融向けコワークとプラグイン

エンタープライズAI 2026年2月24日

企業全体のチーム向けのコワークとプラグイン

エージェント

Claudeで組織の運営方法を変革

開発者向けニュースレターを購読

製品アップデート、ハウツーガイド、コミュニティスポットライトなど。毎月メールでお届けします。

購読する

月次の開発者向けニュースレターの配信をご希望の場合は、メールアドレスをご提供ください。いつでも購読を解除できます。

原文を表示

How Carta Healthcare gets AI to reason like a clinical abstractor

Inside a clinical data abstraction platform processing 22,000 surgical cases a year—and how the team reached 99% accuracy by getting context engineering right.

CategoryEnterprise AI

ProductClaude Platform

DateApril 8, 2026

Reading time5min

ShareCopy linkhttps://claude.com/blog/carta-healthcare-clinical-abstractor

In our new series, How startups build with Claude, we highlight how hypergrowth organizations are transforming their industries with AI. In this article, we share engineering lessons learned behind the creation of Lighthouse, Carta Healthcare's clinical data abstraction platform, and why context engineering matters as much as model capability when you’re building AI-powered systems at scale.

The quick pitch

Carta Healthcare

Claude in Amazon Bedrock

10x growth in the last 3 years, supporting 125+ hospitals

Clinical registries collect standardized data on patients who share a common diagnosis, procedure, or condition. Hospitals submit to registries to benchmark outcomes, identify gaps in care, and drive quality improvement, but registries are only as valuable as the data that feeds them, and producing that data is harder than it looks.

Turning patient records into registry-ready data is called clinical data abstraction. Trained abstractors read through charts, interpret physician notes, reconcile conflicting documentation, and apply clinical judgment where the record isn't clear. A routine case can take 60 minutes; a complex one can take five or six hours. For a large health system, that adds up to more than 11,000 hours of skilled labor annually for a single registry program.

Traditional automation tools haven't been able to close the gap. Rules-based systems and NLP can handle predictable documentation, but clinical language rarely is. The same finding might appear as a structured field at one hospital and buried free-text at another. Edge cases multiply, context matters, and the cost of getting it wrong isn't a bad recommendation—it's flawed quality data that undermines the registry entirely.

That gap is exactly what Carta Healthcare, a clinical data management solution, built software to close at scale. Their platform, Lighthouse, uses Claude to reason across clinical documentation the way a trained abstractor would.

What they discovered in the process reshaped their approach and offered a blueprint for any team trying to get AI from pilot to production.

From rules-based extraction to clinical reasoning

The questions registry abstractors answer aren't simple lookups in a database.

For example, answering the question "what was the most recent glucose before the procedure?" requires knowing the exact procedure start time, then finding a lab value that precedes it. "Was aspirin prescribed at discharge?" requires distinguishing between a medication ordered for a patient to take home versus one administered during their stay.

The obvious approach is to automate those judgments with rules: map how clinicians document specific findings, build extraction logic around those patterns, and scale from there. But clinical documentation isn't consistent enough for that approach to work. The same clinical finding gets documented in a structured field at one hospital and as free-text in a clinical note at another.

Carta Healthcare’s early systems used natural language processing (NLP) to extract registry data automatically. Pattern recognition, it turned out, can't replicate clinical judgment.

"That's where Carta Healthcare started years ago with NLP, and it's exactly why we moved to LLMs," says Hannah Glaser, Applied AI Applications Manager at Carta Healthcare. Getting reasoning right is critical as three abstractors can review the same cardiac case and reach different but defensible answers. Physician notes point one way, imaging studies another. The right answer requires weighing both, and that's not a problem you can rule your way out of.

"What an AI system needs to understand is what a trained clinical abstractor understands: how to read clinical language in context, weigh conflicting evidence across documents, apply temporal logic relative to specific procedure dates, and handle ambiguity," Glaser says. "If weight was assessed after the procedure, a skilled abstractor knows that doesn't count as a pre-procedure weight, and the system needs to know that too.”

Carta Healthcare evaluated several models before settling on Claude.

“No other model we evaluated showed the same capability for understanding and interpreting clinical documentation,” says Glaser.

PrevPrev0/5NextNexteBookThe Enterprise AI Transformation Guide for Healthcare and Life Sciences

Accelerate your enterprise AI transformation with proven strategies from Anthropic's customers in HCLS.

Building the right context

Every data point Lighthouse extracts needs different source documents, a different time window, and a different amount of context to answer correctly.

This is the core challenge of context engineering: an AI agent's performance isn't determined solely by the model. It's determined by what the model is given to work with. The best prompt in the world underperforms if it's fed incomplete, unordered, or poorly scoped information. Getting context right—what to include, what to exclude, and in what sequence—is the engineering work that separates a prototype from a production system.

Take pre-procedure weight. The requirement isn't "find a weight in the record." It's "find a weight documented before a specific procedure start time." The most recent weight may have been recorded two days after the operation. That value is inadmissible.

Carta Healthcare’s system incorporates patient-specific context at runtime so Claude has a precise time boundary for each question. The prompt for pre-procedure glucose specifies the procedure start time and asks for the most recent glucose before that moment. Without that specificity, even a strong model is working from incomplete information that any trained abstractor would catch immediately. “The hardest problems we solved weren't about building a perfect prompt, they were about context construction,” says Matthew Mazzanti, Software Engineering Manager at Carta Healthcare. For Carta Healthcare’s team, the hard work was building the pipeline that assembles the right information at runtime—the right documentation, the right timeframe, the right priority order. “Integrating, organizing, and surfacing the right data at the right time is the real work. A perfectly written prompt with bad context gives bad answers. A straightforward prompt with the right context delivers the results you need," says Mazzanti.

Glaser's advice for teams in the same position? Start by asking whether you're giving the model what it needs to reason, or asking it to figure things out from whatever's available.

"When something underperforms, you can trace it back to a specific prompt, a context issue, or a retrieval gap rather than staring at an aggregate score wondering what went wrong," says Mazzanti. "Build your evaluation framework early, make it granular, and design it to isolate variables. Skip this, and you'll spend more time debugging than building."

At one large health system, Lighthouse processed over 22,000 surgical cases annually across 14 hospitals, with inter-rater reliability reaching 98-99%, the industry's standard measure of abstraction accuracy.

Keeping clinical expertise in the loop

Once context construction is solid, the people who understand clinical documentation best can start shaping how the system behaves.

Building trust with abstractors came down to transparency. Lighthouse isn't a black box. For every data point it extracts, abstractors see the supporting evidence and Claude's rationale. They can validate findings and exercise clinical judgment rather than accepting outputs.

From there, prompting becomes the mechanism through which clinical expertise directly shapes how Claude reasons. When an abstractor finds that a specific registry data point isn't being extracted correctly, her explanation of why—the edge cases, the documentation patterns, what the prompt is missing—becomes a direct input to how Claude handles that field.

By prioritizing context engineering early on, Carta Healthcare turns that explanation into a revised prompt and ships it the same day.

"Our clinical abstractors regularly hand us long explanations of how a specific data point works in practice," Glaser says. "Instead of spending weeks translating that into data science models and custom code, we use that feedback directly in the prompts. What used to take months of engineering and QA per registry now ships in a week."

As one of Carta Healthcare’s abstractors put it: "Lighthouse doesn't replace my judgment. It enhances it."

To learn more, read Carta Healthcare's full story. ‍

Explore more product news and best practices for teams building with Claude.

1M context is now generally available for Opus 4.6 and Sonnet 4.6

Product announcements1M context is now generally available for Opus 4.6 and Sonnet 4.61M context is now generally available for Opus 4.6 and Sonnet 4.61M context is now generally available for Opus 4.6 and Sonnet 4.61M context is now generally available for Opus 4.6 and Sonnet 4.6 Mar 11, 2026Advancing Claude for Excel and PowerPoint

Enterprise AIAdvancing Claude for Excel and PowerPointAdvancing Claude for Excel and PowerPointAdvancing Claude for Excel and PowerPointAdvancing Claude for Excel and PowerPoint Feb 24, 2026Cowork and plugins for finance

Enterprise AICowork and plugins for finance Cowork and plugins for finance Cowork and plugins for finance Cowork and plugins for finance Feb 24, 2026Cowork and plugins for teams across the enterprise

AgentsCowork and plugins for teams across the enterpriseCowork and plugins for teams across the enterpriseCowork and plugins for teams across the enterpriseCowork and plugins for teams across the enterpriseTransform how your organization operates with Claude

Get the developer newsletter

Product updates, how-tos, community spotlights, and more. Delivered monthly to your inbox.

SubscribeSubscribePlease provide your email address if you'd like to receive our monthly developer newsletter. You can unsubscribe at any time.

この記事をシェア

関連記事

The Register AI/ML★32026年4月27日 17:30

アンストロピックの魔法のようなコード検査ツール:現時点ではチェダーよりスイスチーズの方が穴が多い

AnthropicはAIコードセキュリティモデル「Mythos」を公開した。しかし、このシステムは人間が教えた脆弱性しか検出できず、その能力には限界がある。名称の期待と現実のギャップが指摘されている。

InfoQ★32026年4月17日 19:16

Anthropic、Claude Code向けにエージェントベースのコードレビュー機能を導入

Anthropicは、Claude Code向けに新しいコードレビュー機能を導入し、複数のAIレビュアーを使用してコード変更を分析するエージェントベースのプルリクエストレビューシステムを追加した。

宝玉的分享★42026年4月17日 09:00

デザイン分野におけるClaude Codeの時代が到来

Claude Designは、3回の対話でインタラクティブなプロトタイプを生成し、デザインツールのルールを変革している。

ニュース一覧に戻る元記事を読む