Codex を活用した自己改善型税務エージェントの構築(17 分読了)
OpenAI と Thrive Holdings が Codex を活用して構築した「Tax AI」は、実環境でのフィードバックを構造化信号に変換し、エンジニアの介入なしに自律的に精度が向上する自己改善型エージェントの実証例となった。
キーポイント
自律的改善アーキテクチャの実現
従来の手動フィードバックループを廃止し、Codex が生産環境での使用データを構造化信号として自動処理することで、システムが自ら学習・改良する仕組みを確立した。
実社会での大規模パイロット成功
Crete の 30 社以上の会計事務所ネットワークで運用され、7,000 件の税務申告書を処理し、複雑なデータソースからの情報抽出や計算を自動化した。
劇的な効率化と精度向上
税務準備にかかる時間を約 3 分の 1 に短縮し、スループットを 50% 増加させ、修正なしで完了できるケースの精度は 97% に達した。
専門家知見と AI の融合
OpenAI のエンジニアが現場にフォワードデプロイし、税理士の専門知識をシステム設計に直接組み込むことで、実務のボトルネックを解消するアプローチを取った。
影響分析・編集コメントを表示
影響分析
この記事は、LLM が単なるツールとして機能するだけでなく、実社会の複雑なフィードバックループを通じて自律的に進化できる「自己改善型エージェント」の現実的な実現可能性を示した画期的な事例です。特に OpenAI の Codex を活用し、専門家の知見と融合させたことで、従来の AI 導入における「精度向上のための膨大な手動チューニング」という課題を解決する新しいモデルを提示しており、金融・法務分野への AI 実装の基準を大きく引き上げる影響があります。
編集コメント
「AI が人間を補完する」から「AI が自ら成長する」というフェーズへの移行を示す、極めて重要な実証事例です。特に、現場の専門知見と AI の自律学習をどう融合させるかという実装ノウハウが詳細に語られており、業界全体にとって大きな示唆を与えます。
*How Thrive Holdings and OpenAI co-developed Tax AI for Crete accountants by fusing practitioner expertise with a Codex-driven loop*
*実務家の専門知識と Codex を駆使したループを融合させることで、Crete の税理士向けに Thrive Holdings と OpenAI が共同開発した Tax AI*
実際のシステムは、ラボ内とは異なり本番環境では異なる挙動を示し、デプロイ前に予測が難しい形で障害を起こします。チームはしばしばローンチ後にこれらの失敗を発見し、その後数週間にわたってエッジケースの調査やプロンプトの調整を行い、本番からのフィードバックを耐久性のある製品改善へと翻訳することに費やします。このフィードバックループは手動かつ遅く、エンジニアがそれを前進させた場合にのみ改善されます。しかし今日、Thoughtfully に設計された評価インフラストラクチャ(eval infrastructure)、実務家および現実世界環境への直接アクセス、そして Codex の最先端の自律型エージェント機能を活用することで、自己改善を行うエージェントを構築することが可能になりました。
本稿では、Codex を用いてこの種のエージェントをどのように構築したかを解説します。過去 6 ヶ月間、OpenAI のフォワードデプロイエンジニアおよび研究者と Thrive Holdings のエンジニアが協力し、より複雑化する税務申告書の準備を支援するために、30 社以上の会計事務所ネットワークを持つ Crete(新しいウィンドウで開く) のために Tax AI を共同開発しました。各障害の発見と修正をエンジニアに依存するのではなく、Tax AI は Codex を活用して本番での利用を構造化されたシグナルに変換し、自律的な改善を推進します。
クレタの税務実務家は、シーズンごとに数万件の納税申告書を準備しており、これには数百万件の基礎文書の処理が必要です。中程度から大規模な複雑さを持つ申告の場合、データ入力だけで1件あたり8時間かかることが多く、しばしば不揃いなデータソースや前年の書類、手動での抽出と計算を伴います。彼らは、税務シーズンで最も忙しい時期に、税務準備が大きなボトルネックであることを指摘しました。
この問題を解決するため、Tax AI は今季のパイロットプログラムに参加したクレタの各法人の7,000件の納税申告書を処理しました。このシステムは1040および1041税務申告書の準備における時間のかかるプロセスの多くを自動化しますが、効率向上以上に注目すべき点は、3か月前に初めて導入されたバージョンと比較して、システム自体が測定可能なほど改善されていることです。
測定可能な自己改善機能
Tax AI では、実務家がソースファイルと顧客固有の注釈をアップロードします。するとTax AI が税務エンジンへの提出用データを作成し、レビュー待ちの状態にします。これにより、税務準備にかかる時間が約3分の1に短縮され、申告書のドラフト作成精度は最大97%に達し、処理能力は約50%向上します。その結果、実務家は顧客との対話に割く時間をより多く確保できるようになります。
この改善を定量化するには、Tax AI がその後の修正を必要とせずに税務申告書をどの程度正確に完了できるかを理解する必要があります。正確性は、申告書のフィールドが 75%、90%、または 100% 正しく完了した割合をチェックすることで測定されます。ローンチ時には、フィールドの 75% が正しく完了していたのは申告書の四分の一だけでしたが、6 週間以内には 86% がその基準に達しました。システムは、フィールドの 90% および 100% の正確な完了レベルにおいても、さらに急速な成長を示しました。これらの閾値は、異なる申告書に対して専門家によるフォローアップがまだどの程度必要であるかという実用的な視点を与えてくれます。
初期段階では、Tax AI は W-2 や 1099 といった比較的単純な業務を処理していました。シーズンが進むにつれて、K-1 や各種スケジュール、そしてより困難なエッジケースを含む複雑な申告書へと対応範囲を広げました。新たに追加された機能は、手作業で行うのがより難しく時間のかかるタスクを引き受けることで、以前よりも多くの時間を各申告書あたり節約できるようになりました。現在も、私たちは継続的な進歩を目撃し続けています。
次に、専門家のフィードバック(1)、生産トレース(入力から最終出力までの構造化された履歴)(2)、および継続的で迅速な製品開発を可能にするために特別に設計された評価に基づく Codex 駆動の反復ループ(3)という 3 つの重要な柱に依存することで、私たちのチームがどのように Tax AI を自己改善型として共同で構築したかについて詳しく説明します。専門家の知識がシステムの全体的な品質やその中で処理されるデータの質を形作る上で鍵となるドメインにおいて、他のビルダーにとって私たちの経験が役立つことを願っています。
*Tax AI がより複雑な申告書に対応するよう拡張されるにつれ、75%、90%、そして完全完了に達した申告書の割合は納税シーズンを通じて上昇し続けました。
課題
私たちが税務準備の難易度の高い部分(K-1、賃貸不動産スケジュール、複数のソースファイル間で数値の整合性をとる必要がある税務書式など)へと踏み出すにつれ、真の課題が明確になりました。それは、製品が複雑な生産上の失敗を可視化し、理解可能にし、実行可能なものに変えられるかどうかです。
製品の初期段階では、修正のほとんどは手動で行われていました。専門家はシステムエラーを修正できましたが、製品は文脈全体を捉えきれていませんでした。申告前の数値変更は、真の抽出ミス、マッピングの問題、製品サポートの不足、あるいは予期されるワークフローノイズのいずれかを反映している可能性があります。これらのケースを整理するには、エンジニアチームによるフォローアップが必要でした。エンジニアはコーディングエージェントを使用できましたが、システムはまだ改善ループ内で AI を意味ある形で活用するように設計されていませんでした。どの課題(ヒル)に取り組むべきかを見極めるためのシグナルがありませんでした。
私たちのアプローチ:3 つの要素からなるループ
これにより、私たちは 3 つの柱を中心にシステムを設計することになりました:
- 実務家との密接な連携:実際に作業を行う人々が、製品が何を学ぶべきかを導く必要があります。彼らの直感と理解は、どのエラーが重要であるかを示し、次にどのワークフローの部分を重点的に取り組むべきかを判断する手がかりとなります。
- 生産プロセスから証拠を構築する:製品は単なる入力と出力を記録するだけでなく、ソース資料から抽出されたフィールドや出所情報、そして下流への提出や専門家の修正に至るまでの全経路を捉える必要があります。
- Codex を駆使した改善ループの創出:生産上の課題が可視化され構造化されれば、それは発見事項となり、 tailored(対象に合わせた)評価と範囲限定されたエンジニアリングタスクへと発展します。Codex はその後、調査を行い、変更を提案し、ターゲット評価や回帰テストに対してそれらを検証することで、純粋な手動反復サイクルよりも製品をより迅速に進化させることができます。
以下の賃貸物件の例では、このループが実際にどのように機能するかを示しています。実務家の修正が構造化された発見事項となり、次に評価対象となり、最終的には Codex が担当するエンジニアリングタスクへと変化する過程を追います。
賃貸物件の例
賃貸物件の収入は、個人の税務申告書のスケジュール E に報告されます。エンジニアリングの観点からは、その抽出タスクを記述するのは簡単ですが、うまく行うのは困難です。システムは、手書きメモ、メール、スプレッドシート、その他の顧客ファイルといった不揃いなソース資料を読み込み、税務エンジンに確信を持ってマッピングできる賃貸物件関連フィールドを抽出し、専門家が結果の承認または修正を行える十分な証拠を残す必要があります。以下の簡略化された例では、それらのソースファイルと抽出後の出力がどのようなものかを示しています。
*賃貸物件のソースパッケージは、下流の税務エンジン概念にマッピングされる前に、引用されたフィールドに正規化されます。
1. 専門家の修正が失敗を明らかにする
エージェントが予測した値と、提出済みの税務申告書から得られた実際の値との間の差異は、真の抽出見落としを反映している可能性もありますが、専門家の好みや、税務エンジン内で前年の申告書から持ち越された値、あるいは申告ワークフロー内の他の場所で導入・変更された値である可能性もあります。専門家たちは、これらのケースを見極めることで、どのアクションが専門家の修正を必要とするか、または提出をブロックするかを特定するのを助けてくれました。
これらの修正を詳細に確認できたため、レビュープロセスを失敗後のターミナルステップから継続的な学習サイクルへと転換しました。専門家によるアクションを構造化データとして記録するワークフローを設計しました。現在、すべての介入は、Tax AI が何提案し、実務家が何を修正し、最終的に申告書に何が反映されたかを正確に記録することで、製品の改善ループに貢献しています。
2. プロダクトのトレースが修正を評価指標に変える
賃貸物件のような複雑なワークフローでは、ソースファイルから提出された申告書に至るまでの過程をシステムが保持する必要があります。その経路において、文書は整理され、分割・分類され、賃貸物件関連フィールドは出典資料への引用付きで抽出され、それらの値は税務エンジンにマッピングされます。その後、実務家が提出前にさらに修正を加えることもあります。これらのプロダクトレベルのトレースにより、失敗が発生した箇所を調査することが可能になります。実務家の修正を有用な評価対象に変換するために、システムは以下の 3 つのステップで処理を行います:
- 差異のキャプチャ:Tax AI の出力は提出された申告書と比較され、期待値、予測値、およびその差異が実務的な対応を要するものかどうかを示すフィールドレベルのレビュー行が生成されます。
- 関連する失敗のグループ化:類似したレビュー行はグループ化され、繰り返される製品上の欠陥と、予想されるワークフロー内のノイズが区別されます。例えば、税理士による繰り返し修正から、Tax AI が「適正賃貸日」フィールドを頻繁に見落とし、「その他の費用」の処理に誤りがあること、または同じソースパッケージ内で複数の賃貸物件を混同していることが示唆されることがあります。
- 繰り返されるパターンを評価目標へ変換:レビューと測定が完了すると、繰り返し見つかった課題は Codex が改善すべき明確な評価目標となります。
*賃貸物件に関するレビュー行は、繰り返される製品上の欠陥と予想されるノイズを分離し、実務的な対応が必要なケースを評価目標としてCodexに克服すべき課題を与えます。*
3. その発見が Codex にとっての「登るべき丘」になる
3 つ目の柱は、これらの新しい評価結果に基づいて行動できるエンジニアリングループを構築することです。ここで Codex が中心的な役割を果たします。
例えば、評価パイプラインが、Tax AI が一貫して「適正賃貸日」フィールドを見落としている一方で、税理士は確実にその項目を入力していることを指摘したとしましょう。この発見はすでに、代表的なソースパッケージと期待される出力を含むターゲットを絞った評価セットとしてパッケージ化されているため、Codex は製品のスキャフォールド内で直接根本原因の調査を行うことができます。
Codex は単に不完全な最終出力のみを対象としているわけではありません。トレース(追跡情報)、評価結果、リポジトリ、およびスキルを総合的に検証します:
- パイプラインを調査する:ソースパッケージ、抽出スキーマ、マッパーの動作、コードパスを検査し、問題が未対応フィールド、見逃された抽出パターン、ソース選択の問題、マッパーの隙間、またはグラダーの問題のいずれであるかを特定します。
- targeted な修正を実装する:抽出スキーマを拡張するか、賃貸物件ドキュメントに対するソース選択を改善し、税務エンジンマッパーを更新するか、期待されるワークフローノイズが失敗としてカウントされている場合はグラダーを精緻化します。
- 検証と提案:ターゲット評価を再実行し、より広範な回帰スイートを実行し、エンジニアリングレビューのための候補プルリクエストを提示します。
- ループを完了する:繰り返される実務家の修正を測定可能なエンジニアリングタスクに変換します。証拠が曖昧または安全に自動化できない場合、ケースは強制的にループを通すのではなく製品チームへルーティングされます。
*エンドツーエンドの自己改善ループ:本番環境のトレースは繰り返し発生するフィールドレベルの修正を表面化し、これらは Codex がトレース、評価、リポジトリ、スキルと共に検査できる失敗シグナルとなります。実行可能なパターンは境界付きの評価と候補となる製品変更となり、曖昧なケースはエンジニアによるレビューのためにルーティングされます。各リリースされた改善は、次のサイクルのための新たな本番環境証拠を生み出します。
Codex を使用してこのループを構築する方法
賃貸物件の事例は、生産環境での成果物やトレースを用いてエージェントの能力を向上させるという、より広範な再利用可能なパターンの象徴です。レビュー済みの生産データからの発見、ソーストレース、税務エンジンによる期待される出力、関連するコード例、評価コマンドを一連の入力として与えることで、Codex は数週間から数ヶ月かけてパフォーマンスと精度を大幅に向上させることができます。これは、harness engineering および Symphony に関する当社の研究で述べられた原則に基づいています。これらは、タスクを Codex に理解しやすくする方法、スコープを限定したコンテキストとツールを提供する方法、そして検証と人間のレビューを環境の一部として維持する方法について解説しています。
その証拠が自動的に Codex のタスクになるわけではありません。実務者による修正は、抽出の見落とし、マッピングの問題、サポートされていない製品動作、税務判断、あるいは期待されるワークフローノイズを反映している可能性があります。繰り返し生じる差異がレビューされ、実行可能な発見としてグループ化されて初めて、システムは明確な成功条件を持つ限定されたタスクへと変換します。
この自動化は、製品の限定された層に適用されます。この層では、抽出処理が行われ、ソースドキュメントが税務ワークフローにマッピングされます。エンジニアはアーキテクチャ、製品に関する意思決定、およびリリースの責任を負います。実務者は、既に実施している業務を通じて改善ループを主導します。具体的には、抽出された値の修正、申告書のレビュー、最終的な提出物の承認などです。
Codex における結果は、曖昧なアラートではなく、証拠付きの範囲限定されたエンジニアリングタスクであり、編集可能な製品表面と明確な検証ゲートを備えています。代表的な賃貸物件タスクのコンテキストは以下のように要約できます:
境界を設けた Codex タスク環境では、書き込み可能なワークツリー [1] と読み取り専用のプロダクションコンテキスト [5] が分離されています。ワークツリーには、Codex が検査または変更できる範囲限定された製品表面 [2]、成功を定義するターゲットおよび回帰評価 [3]、タスクの実行方法や過去の決定を尊重する方法をエンコードした再利用可能なスキル/ドキュメント [4] が含まれています。読み取り専用コンテキストは、プロダクションのトレース、ソースドキュメント、Tax AI の予測、確定された申告書、および税務エンジニアフィールドのドキュメンテーションを提供し、Codex が根本的な証拠を変更せずに障害を調査できるようにします。
新領域への展開
このループは賃貸物件以外の分野にも適用されます。賃貸物件では、90% の精度と再現率に到達するまでに約 6 週間と相当なエンジニアリングの監督が必要でしたが、その作業により再利用可能な抽象化、レビュー成果物、評価規約、および実装パターンが生まれました。これらは Schedule C や Schedule A といった同様に複雑なスケジュールをサポートしやすくするための基盤となっています。
Tax AI は、自己改善型エージェントを構築する道筋を実証しています。実践者はサービスを提供することで高価値のフィードバック信号を生成します。プロダクトワークフローは、これらの信号を構造化された証拠として保存します。評価ベースのエンジニアリングシステムは、本番環境に到達する前に改善を検証し、エージェントが駆動するループがシステムを継続的な自己改善の流れに保ちます。
Thrive Holdings の構造により、特定の業界でこの環境を複製することが可能です。Holdings は所有者であり運営者でもあるため、当社の統合されたエンジニアリングチームは、ベンダーではなくパートナーとして、Crete などの企業内部から実践者と本番データに直接取り組むことができます。つまり、技術、プロダクト、サービスのすべてが一つの屋根の下にあり、これにより私たちはより迅速に進み、卓越した製品を構築できます。
昨年会計処理に 180 時間を費やしたあるシニア会計士は、今年はわずか 15 時間で済ませました。彼女はその時間の一部を、すべての顧客に電話をかけ、税務申告書を一緒に確認する高品質なサービスに充てました。これは一年前には不可能だったレベルのサービスです。残りの時間は、新規顧客の獲得と新しいサービス提供への拡大に使用しました。
これにより、当社のチームは現在、Thrive Holdings 内の他のドメインにおけるワークフロー構築の青写真として、Tax AI で採用されている同じ三部構成の設計を共有して活用しています。これには、会計分野での仕訳や監査などの業務プロセスや、IT ヘルプデスク自動化などの運用プロセスが含まれます。ドメインや業界を超えて、自己改善型エージェントが持つ広範な可能性に期待が高まっています。最も優れたエージェントは、人間によって導かれながら学習し、時間とともにより能力を高め、信頼され、価値ある存在へと進化していきます。
このプロジェクトに関わった OpenAI チームについて詳しく知りたい方は、お問い合わせください。
原文を表示
*How Thrive Holdings and OpenAI co-developed Tax AI for Crete accountants by fusing practitioner expertise with a Codex-driven loop*
Real-world systems behave differently in production than they do in a lab, breaking in ways that are hard to anticipate before deployment. Teams often discover those failures after launch, then spend weeks inspecting edge cases, adjusting prompts, and translating production feedback into durable product improvements. The feedback loop is manual and slow, and only improves when an engineer advances it. But today, with thoughtfully designed eval infrastructure, direct access to practitioners and real world environments, and the frontier agentic capabilities of Codex, you can build agents that self-improve.
In this post, we’ll unpack how we used Codex to build this type of agent. Over the past six months, OpenAI forward deployed engineers and researchers along with Thrive Holdings’ engineers collaborated to build Tax AI alongside and for Crete(opens in a new window)’s network of 30+ accounting firms to help prepare increasingly complex tax returns. Instead of relying on engineers to find and fix each failure, Tax AI uses Codex to turn production use into structured signals that fuel autonomous improvement.
Crete practitioners prepare tens of thousands of tax returns each season which requires working through millions of underlying documents. For medium- to large-complexity filings, data entry alone can take eight hours per return, often involving messy data sources, prior-year documents, and manual extraction and calculation. They pointed us to tax preparation as a significant bottleneck during the busiest stretch of tax season.
To solve this problem, Tax AI processed 7,000 tax returns across the Crete firms that participated in the pilot this tax season. The system automates much of the time-intensive process of preparing 1040 and 1041 tax returns, but even more compelling than the efficiency gains is that the system itself is measurably better than the version that was first deployed three months ago.
Measurable self-improvement
In Tax AI, practitioners upload source files along with any client-specific notes. Tax AI then creates a tax engine submission, ready for review. It saves practitioners about a third of their time on tax preparation, drafts returns with up to 97% accuracy, and increases throughput by about 50%, creating more room for them to spend time with clients.
We can quantify this improvement by understanding how accurately Tax AI can complete a return without needing correction later. We measure accuracy by checking what share of returns reach 75%, 90%, or 100% correct field completion. At launch, only a quarter of returns were at 75% correct field completion, but within six weeks, 86% hit that mark. The system showed even faster growth at the 90% and 100% correct field completion levels. These thresholds give us a practical view of how much practitioner follow-up different returns still require.
Early on, Tax AI handled simpler work, like W-2s and 1099s. As the season went on, it moved into more complex returns with K-1s, schedules, and harder edge cases. Each new capability saved more time per return than the last because the tasks it took on were harder and more time consuming to do manually. We continue to see ongoing progress today.
Next, we’ll walk through how our teams co-engineered Tax AI to be self-improving by leaning on three critical pillars: 1) expert practitioner feedback, 2) production traces (a structured history from inputs through final output), and 3) a Codex-driven iteration loop based on tailored evals to enable continuous, faster product development. We hope our experience will be useful to other builders in domains where practitioner expertise is key to shaping the quality of the overarching system and the data running through it.
The problem
As we pushed into harder parts of tax preparation (K-1s, rental real estate schedules, and tax forms where values had to be reconciled across multiple source files), it became obvious that the real challenge was whether the product could make complex production failures visible, understandable, and actionable.
In the early days of the product, most of the correction was manual. Practitioners could correct system errors, but the product did not capture the full context: a changed value before filing might reflect a true extraction miss, a mapping problem, missing product support, or expected workflow noise. Sorting those cases out still required follow-up from the engineering team. Engineers could use coding agents, but the system was not yet designed to use AI meaningfully inside an improvement loop. We did not have the signal to identify the right hill to climb.
Our approach: a three-part loop
That led us to design the system around three pillars:
- Stay close to practitioners: The people doing the work need to steer what the product learns. Their intuition and understanding reveal which errors matter and help inform which parts of the workflow are worth focusing on next.
- Build the product so production creates evidence: The product has to capture more than just inputs and outputs; it needs to capture the full path from source material, to extracted fields and provenance, to downstream submission and expert correction.
- Create a Codex-driven improvement loop: Once production issues are visible and structured, they can become findings, tailored evals, and scoped engineering tasks. Codex can then help investigate, propose changes, validate them against targeted and regression evals, and move the product forward faster than a purely manual iteration cycle.
The rental properties example below shows how that loop works in practice, walking you through how a practitioner correction becomes a structured finding, then an eval target, and finally a Codex-scoped engineering task.
Rental property example
Rental property income is reported on Schedule E of an individual tax return. From an engineering perspective, the task of extracting it is simple to describe but hard to do well. The system has to read messy source material (handwritten notes, emails, spreadsheets, and other client files), extract the rental-property fields the system can confidently map to the tax engine, and preserve enough evidence that a practitioner can approve or correct the result. The simplified example below shows what those source files and extracted outputs might look like.
1. A practitioner correction reveals a failure
A difference between the agent-predicted value and the actual value from the filed tax return might reflect a true extraction miss, but it could also be a practitioner preference, a value carried forward from a prior-year return in the tax engine, or a value introduced or changed elsewhere in the filing workflow. Practitioners helped us discern those cases so we could identify which actions required a practitioner correction or blocked a submission.
Because we could see these corrections in detail, we transformed the review process from a terminal, post-failure step into a continuous learning cycle. We designed the workflow to capture expert actions as structured data. Now, every intervention feeds the product's improvement loop by recording exactly what Tax AI proposed, what the practitioner modified, and what ultimately went into the filed return.
2. Product traces turn corrections into evals
For a complex workflow like rental properties, the system has to preserve what happens between the source files and the filed return. Along that path, documents are organized, split, and classified; rental-property fields are extracted with citations back to the source material; those values are mapped into the tax engine; and practitioners may still correct them before filing. Those product-level traces make it possible to investigate where a failure occurred. To turn practitioner corrections into useful evaluation targets, the system processes them in three steps:
- Capture the difference: Tax AI’s output is compared with the filed return to produce field-level review rows that capture the expected value, predicted value, and whether the difference appears actionable.
- Group related failures: Similar review rows are grouped to separate recurring product failures from expected workflow noise. For example, repeated practitioner corrections might show that Tax AI often misses fair-rental-day fields, mishandles “other expenses,” or confuses multiple rental properties across the same source package.
- Turn repeated patterns into eval targets: Once reviewed and measured, repeated findings become clear eval targets for Codex to improve.
3. The finding becomes a hill to climb for Codex
The third pillar is creating an engineering loop capable of acting on these new evals. This is where Codex becomes central.
Suppose our eval pipeline flags that Tax AI consistently misses the "fair rental days" field, while practitioners reliably fill it in. Because this finding has already been packaged into a targeted eval set, with representative source packages and expected outputs, Codex can investigate the root cause directly within the product scaffold.
Codex isn’t working solely with a sub-par final output. It inspects the trace, eval, repo, and skills together:
- Investigate the pipeline: Inspect source packages, extraction schemas, mapper behavior, and code paths to determine whether the issue is an unsupported field, a missed extraction pattern, a source-selection problem, a mapper gap, or a grader issue.
- Implement targeted fixes: Extend the extraction schema, improve source selection for rental-property documents, update the tax-engine mapper, or refine the grader if expected workflow noise is being counted as a failure.
- Validate and propose: Rerun the targeted eval, run broader regression suites, and surface a candidate pull request for engineering review.
- Close the loop: Turn a recurring practitioner correction into a measurable engineering task. If the evidence is ambiguous or not safely automatable, the case routes back to the product team instead of being forced through the loop.
How to use Codex to build this loop
The rental property example is emblematic of a broader reusable pattern: using production artifacts and traces to improve an agent’s capabilities. Given reviewed findings from production data, source traces, expected tax-engine output, relevant code examples, and eval commands as a set of inputs, Codex can materially improve on performance and accuracy over weeks and months. This builds on the principles described in our work onharness engineering and Symphony, which walk-through how to make tasks legible to Codex, provide scoped context and tools, and keep validation and human review part of the environment.
That evidence does not become a Codex task automatically. A practitioner correction may reflect an extraction miss, a mapping issue, unsupported product behavior, tax judgment, or expected workflow noise. Only after repeated differences have been reviewed and grouped into an actionable finding does the system turn them into a bounded task with a clear success condition.
We apply this automation to a bounded layer of the product. This layer performs extraction and maps source documents into tax workflows. Engineers remain responsible for architecture, product decisions, and shipping. Practitioners steer the improvement loop through the work they already do: correcting extracted values, reviewing returns, and approving final filings.
For Codex, the result is not a vague alert but a scoped engineering task with evidence, editable product surfaces, and explicit validation gates. The context for a representative rental property task can be summarized as follows:
A bounded Codex task environment separates the writable worktree [1] from read-only production context [5]. The worktree contains the scoped product surface Codex can inspect or modify [2], the targeted and regression evals that define success [3], and reusable skills/docs that encode how to run the task and respect prior decisions [4]. The read-only context provides the production trace, source documents, Tax AI prediction, finalized return, and tax-engine field documentation, so Codex can investigate the failure without mutating the underlying evidence.
Expanding to new domains
The same loop applies beyond rental properties. Rental properties took about six weeks and substantial engineering oversight to reach 90% precision and recall, but that work produced reusable abstractions, review artifacts, eval conventions, and implementation patterns that made it easier to support similarly complex schedules such as Schedule C and Schedule A.
Tax AI proves a path to building self-improving agents. Practitioners generate high-value feedback signals by delivering the service. Product workflows preserve those signals as structured evidence. Eval-backed engineering systems validate improvements before they reach production, and an agent-powered loop keeps the system in a continuous self-improving flow.
Thrive Holdings’ structure allows us to replicate this environment in specific industries. Holdings is both an owner and operator, so our combined engineering teams are able to work directly with practitioners and production data from inside businesses like Crete, not as a vendor but as partners. This means the technology, the product, and the service all sit under one roof to help us move faster and build exceptional products.
One senior accountant who spent 180 hours on tax prep last year spent only 15 hours on it this year. She put that time in part toward calling every one of her clients and walking them through their returns, a level of high touch service that wasn’t possible a year ago. The rest of that time she used to take on new clients and expand to new service offerings.
Together, our teams are now using the same three-part design from Tax AI as a blueprint for building workflows in other domains across Thrive Holdings(opens in a new window); accounting workflows such as bookkeeping and audit, and operational workflows such as IT help desk automation. Across domains and industries, the broader promise of self-improving agents holds. The best agents are steered by people to learn to become more capable, more trusted, and more valuable over time.
*To learn more about the OpenAI team that worked on this project, *get in touch*.*
関連記事
Claude Code、Codex、そしてエージェント型コーディング #8
著者は、コード生成エージェントの技術向上により注目が高まっている現状を踏まえ、個別の更新報告よりも週次まとめへ統合すると発表した。
OpenAI、スクリプトを翻す(10 分読了)
OpenAI は GPT-5.5 の統合とアプリ性能向上により、Codex が Anthropic の Claude Code を上回った。Austin Tedesco や Dan Shipper は戦略文書作成や採用に活用し、Marcus Moretti は実証済みの課題解決ツールのみを慎重に採用している。
【AIニュース】ImageGenはAGIへの道を進んでいる
AnthropicのようなエンタープライズAI重視の潮流の中で、GPT-Image-2は創造的な応用を推進し、AGI実現への重要な一歩を示している。