Codex を用いた自己改善型税務エージェントの構築
OpenAI と Thrive Holdings が共同開発した「Tax AI」は、Codex を活用して実運用データを自己学習ループに組み込み、従来手動だった改善プロセスを自動化することで、精度と効率を劇的に向上させた事例である。
キーポイント
自律的改善メカニズムの実現
エンジニアが手動でエッジケースを検証する従来の手法に対し、Codex を用いて生産環境での利用データを構造化された信号に変換し、システム自体が継続的に自己改善を行うループを構築した。
実世界での大規模実証と成果
Crete のネットワーク(30 社以上)で 7,000 件の税務申告書を処理し、データ入力時間の約 1/3 を削減し、97% の精度を達成してスループットを 50% 向上させた。
専門家知見と AI の融合
OpenAI のエンジニアと Thrive Holdings の税理士が密接に協力し、実務家の専門知識(ドメインエキスパート)を Codex ドライブのループに統合することで、複雑な税務申告のボトルネックを解消した。
影響分析・編集コメントを表示
影響分析
この事例は、LLM を単なるツールとして使用するのではなく、自律的に改善し続ける「エージェント」として実社会の複雑な業務に適用する可能性を示す画期的なケーススタディです。特に、開発と運用の境界を曖昧にし、フィードバックループを自動化することで AI システムの信頼性を飛躍的に高める手法は、金融や法務など高リスク領域への AI 導入における重要な指針となります。
編集コメント
「AI が人間を代替する」議論から、「AI が人間の専門知見と連携して自律的に進化し続ける」段階への移行を示す、極めて重要な実証事例です。
*How Thrive Holdings and OpenAI co-developed Tax AI for Crete accountants by fusing practitioner expertise with a Codex-driven loop*
実世界のシステムは、ラボ内とは異なり、本番環境では予期しにくい方法で障害を起こすことがあります。チームはしばしばローンチ後にこれらの失敗に気づき、その後の数週間にわたりエッジケースの調査やプロンプトの調整を行い、本番からのフィードバックを耐久性のある製品改善へと翻訳することに費やします。このフィードバックループは手動かつ遅く、エンジニアがそれを前進させる場合にのみ改善されます。しかし今日、Thoughtfully に設計された評価インフラストラクチャ(eval infrastructure)、実践者および実世界環境への直接アクセス、そして Codex の最先端の自律型エージェント機能を活用することで、自己改善を行うエージェントを構築することが可能になりました。
本稿では、Codex を用いてこの種のエージェントをどのように構築したかを解説します。過去 6 ヶ月間、OpenAI のフォワードデプロイメントエンジニアおよび研究者と Thrive Holdings のエンジニアが協力し、Crete(opens in a new window) の 30 社以上の会計事務所ネットワークのために Tax AI を共同開発しました。これは、より複雑化する税務申告書の準備を支援するためです。各失敗をエンジニアが見つけて修正するのではなく、Tax AI は Codex を活用して本番での利用を構造化されたシグナルに変換し、自律的な改善を推進します。
クレタの税務実務家は、毎シーズン数万件の納税申告書を処理しており、これには数百万件の基礎文書の確認が必要です。中程度から大規模な複雑さを持つ申告の場合、データ入力だけで1件あたり8時間かかることが多く、不揃いなデータソースや前年度の書類、手動での抽出と計算が伴います。彼らは、税務シーズンで最も忙しい時期に、税務申告の準備が大きなボトルネックになっていることを指摘しました。
この問題を解決するため、Tax AI は今季のパイロットに参加したクレタの各法人の7,000件の納税申告書を処理しました。同システムは1040および1041税務申告書の作成における時間のかかるプロセスの多くを自動化しますが、効率向上以上に注目すべき点は、3か月前に初めて導入されたバージョンと比較して、システム自体が測定可能なほど改善されていることです。
測定可能な自己改善機能
Tax AI では、実務家がソースファイルと顧客固有の注釈をアップロードします。するとTax AI が税務エンジンへの提出用データを作成し、レビュー待ちの状態になります。これにより、税務申告の準備にかかる時間を約3分の1に短縮し、申告書のドラフト作成精度を最大97%まで高め、処理能力を約50%向上させます。その結果、実務家が顧客と過ごす時間をより多く確保できるようになります。
この改善を定量化するには、Tax AI がその後の修正を必要とせずに税務申告書をどの程度正確に完了できるかを理解する必要があります。正確性は、申告書のフィールドが 75%、90%、または 100% 正しく完了した割合をチェックすることで測定されます。ローンチ時には、フィールドの 75% が正しく完了していたのは申告書の四分の一だけでしたが、6 週間以内には 86% がその基準に達しました。システムは、フィールドの 90% および 100% の正確な完了レベルにおいて、さらに急速な成長を示しました。これらの閾値は、異なる申告書に対して専門家によるフォローアップがまだどの程度必要であるかという実用的な視点を与えてくれます。
初期段階では、Tax AI は W-2 や 1099 といった比較的単純な業務を処理していました。シーズンが進むにつれて、K-1、付帯書類、そしてより困難なエッジケースを含む複雑な申告書へと対応範囲を広げました。新しく追加された機能は、手作業ではより時間のかかるタスクを引き受けることで、以前よりも多くの時間を各申告書あたり節約できるようになりました。現在も、私たちは継続的な進歩を目撃し続けています。
次に、専門家のフィードバック(1)、生産トレース(入力から最終出力までの構造化された履歴)(2)、そして継続的で迅速な製品開発を可能にするために特別に設計された評価に基づく Codex 駆動の反復ループ(3)という 3 つの重要な柱に依存することで、私たちのチームがどのように Tax AI を自己改善型として共同で構築したかについて詳しく説明します。専門家の知識がシステムの全体的な品質とそれを通じて流れるデータの質を形作る上で鍵となるドメインにおいて、他のビルダーにとって私たちの経験が役立つことを願っています。
*Tax AI がより複雑な申告書に対応するにつれ、評価スコアが 75%、90%、そして完全完了に達する申告書の割合は、納税シーズンを通じて継続して上昇し続けました。
課題
私たちが税務準備の難易度の高い領域(K-1 文書、賃貸不動産関連の明細書、複数のソースファイル間で数値の整合性をとる必要がある税務書類など)へと踏み出すにつれ、真の課題は製品が複雑な生産上の失敗を可視化し、理解可能にし、実行可能なものに変えられるかどうかであることが明らかになりました。
製品の初期段階では、修正作業のほとんどが手動で行われていました。専門家はシステムエラーを修正できましたが、製品は文脈全体を捉えきれていませんでした。申告前の数値変更は、真の抽出ミス、マッピングの問題、製品サポートの不足、あるいは予期されるワークフロー上のノイズのいずれかを反映している可能性があります。これらのケースを整理するには、エンジニアチームによるフォローアップが必要でした。エンジニアはコーディングエージェントを利用できましたが、システムはまだ改善ループ内で AI を意味ある形で活用するように設計されていませんでした。どの課題に注力すべきかを見極めるためのシグナル(信号)が存在しなかったのです。
私たちのアプローチ:3 つの要素からなるループ
これにより、私たちは 3 つの柱を軸にシステムを設計することになりました:
- 実務家との密接な連携:実際の作業を行う人々が、製品が何を学ぶべきかを導く必要があります。彼らの直感と理解は、どのエラーが重要であるかを示し、次にどのワークフローの部分を重点的に取り組むべきかを判断する手がかりとなります。
- 生産活動から証拠を構築する:製品は単なる入力と出力を捉えるだけでなく、ソース資料から抽出されたフィールドや出所情報、そして下流への提出や専門家の修正に至るまでの全経路を記録する必要があります。
- Codex を駆使した改善ループの創出:生産上の課題が可視化され構造化されれば、それは発見事項となり、 tailored(対象に合わせた)評価と範囲限定されたエンジニアリングタスクへと発展します。Codex はその後、調査を行い、変更を提案し、ターゲット評価や回帰テストに対してそれらを検証することで、純粋な手動反復サイクルよりも製品をより迅速に進化させることができます。
以下の賃貸物件の例では、このループが実際にどのように機能するかを示しています。実務家の修正が構造化された発見事項となり、次に評価対象となり、最終的には Codex が担当するエンジニアリングタスクへと変化する過程を追います。
賃貸物件の例
賃貸物件からの収入は、個人の税務申告書におけるスケジュール E に報告されます。エンジニアリングの観点から見ると、これを抽出するタスクは記述するには単純ですが、うまく行うのは困難です。システムは、手書きメモ、メール、スプレッドシート、その他の顧客ファイルといった不揃いなソース資料を読み込み、税務エンジンに確信を持ってマッピングできる賃貸物件関連のフィールドを抽出し、専門家が結果を検証または修正できるように十分な証拠を残す必要があります。以下の簡略化された例では、それらのソースファイルと抽出後の出力がどのようなものになるかを示しています。
*賃貸物件のソースパッケージは、下流の税務エンジン概念にマッピングされる前に、引用されたフィールドへと正規化されます。
1. 専門家の修正から判明した失敗
エージェントが予測した値と、提出済みの税務申告書における実際の値との間の差異は、真の抽出漏れを反映している可能性もありますが、専門家の好意によるもの、税務エンジン内で前年の申告書から持ち越された値、あるいは申告ワークフロー内の他の場所で導入または変更された値である可能性もあります。専門家たちは、これらのケースを見極めるために私たちを支援し、どのアクションが専門家の修正を必要とするか、あるいは提出をブロックするかを特定できるようにしました。
これらの修正を詳細に確認できたため、レビュープロセスを失敗後のターミナルステップから継続的な学習サイクルへと転換しました。専門家によるアクションを構造化データとして記録できるワークフローを設計しました。現在、すべての介入は、Tax AI が何提案し、実務家が何を修正し、最終的に申告書に反映されたかを正確に記録することで、製品の改善ループに貢献しています。
2. プロダクトのトレースが修正を評価指標へ変える
賃貸物件のような複雑なワークフローでは、ソースファイルから提出された申告書に至るまでの過程をシステムが保持する必要があります。その経路において、文書は整理され、分割・分類され、賃貸物件関連の項目は出典資料への引用付きで抽出されます。これらの値は税務エンジンにマッピングされ、提出前に実務家がさらに修正を加えることもあります。こうしたプロダクトレベルのトレースにより、失敗が発生した箇所を調査することが可能になります。実務家の修正を有用な評価対象に変換するために、システムは以下の 3 つのステップで処理を行います:
- 差異のキャプチャ:Tax AI の出力は提出された申告書と比較され、期待値、予測値、およびその差異が実務的な対応を要するものかどうかを示すフィールドレベルのレビュー行が生成されます。
- 関連する失敗のグループ化:類似したレビュー行はグループ化され、繰り返される製品上の欠陥と、予想されるワークフロー内のノイズが区別されます。例えば、税理士による繰り返し修正から、Tax AI が「適正賃貸日」フィールドを頻繁に見落とし、「その他の費用」の処理に誤りがあること、または同じソースパッケージ内で複数の賃貸物件を混同していることが示唆されることがあります。
- 繰り返されるパターンを評価目標へ変換:レビューと測定が完了すると、繰り返し発見された事象は Codex が改善すべき明確な評価目標となります。
*賃貸物件に関するレビュー行は、繰り返される製品上の欠陥と予想されるノイズを分離し、実務的な対応が必要なケースを評価目標としてCodexに課題を与えます。*
3. その発見が Codex にとって登るべき山となる
3 つ目の柱は、これらの新しい評価に基づいて行動できるエンジニアリングループの構築です。ここで Codex が中心的な役割を果たします。
例えば、評価パイプラインで、Tax AI が「適正賃貸日」フィールドを一貫して見落としている一方で、税理士は確実にこれを記入していることが指摘されたとしましょう。この発見はすでに代表的なソースパッケージと期待される出力を含むターゲット型評価セットとしてパッケージ化されているため、Codex は製品のスキャフォールド内で直接根本原因の調査を行うことができます。
Codex は単に不完全な最終出力のみを扱うわけではありません。トレース(追跡情報)、評価、リポジトリ、およびスキルを統合的に検査します:
- パイプラインを調査する:ソースパッケージ、抽出スキーマ、マッパーの動作、コードパスを検査し、問題が未対応フィールド、見逃された抽出パターン、ソース選択の問題、マッパーの隙間、またはグラダーの問題のいずれであるかを特定する。
- targeted な修正を実行する:抽出スキーマを拡張する、賃貸物件ドキュメントに対するソース選択を改善する、税務エンジン用マッパーを更新する、または期待されるワークフローノイズが失敗としてカウントされている場合はグラダーを精緻化する。
- 検証と提案を行う:ターゲット評価を再実行し、より広範な回帰スイートを実行し、エンジニアリングレビュー用の候補プルリクエストを提示する。
- ループを完了させる:繰り返される実務者の修正を経験可能なエンジニアリングタスクに変換する。証拠が曖昧または安全に自動化できない場合、ケースは強制的にループを通すのではなく製品チームへルーティングされる。
*エンドツーエンドの自己改善ループ:本番環境のトレースは繰り返し発生するフィールドレベルの修正を表面化し、これらは Codex がトレース、評価、リポジトリ、スキルと共に検査できる失敗シグナルとなる。実行可能なパターンは限定された評価と候補製品変更となり、曖昧なケースはエンジニアによるレビューのためにルーティングされる。各リリースされた改善は、次のサイクルのための新たな本番環境証拠を生み出す。*
Codex を使用してこのループを構築する方法
賃貸物件の事例は、生産環境での成果物やトレースを用いてエージェントの能力を向上させるという、より広範な再利用可能なパターンの象徴です。レビュー済みの生産データからの知見、ソーストレース、予想される税務エンジン出力、関連するコード例、評価コマンドを一連の入力として与えることで、Codex は数週間から数ヶ月かけてパフォーマンスと精度を大幅に向上させることができます。これは、harness engineering および Symphony に関する当社の研究で述べられた原則に基づいています。これらは、タスクを Codex が理解しやすい形にする方法、スコープを限定したコンテキストとツールを提供する方法、そして検証と人間のレビューを環境の一部として維持する方法について解説しています。
その証拠が自動的に Codex のタスクになるわけではありません。実務者の修正は、抽出の見落とし、マッピングの問題、サポートされていない製品動作、税務判断、あるいは予想されるワークフローノイズを反映している可能性があります。繰り返し生じる差異がレビューされ、実行可能な知見としてグループ化されて初めて、システムは明確な成功条件を持つ限定されたタスクへと変換します。
この自動化は、製品の限定された層に適用されます。この層では、抽出処理が行われ、ソースドキュメントが税務ワークフローにマッピングされます。エンジニアはアーキテクチャ、製品に関する意思決定、およびリリースの責任を負います。実務者は、既に実施している業務を通じて改善ループを主導します。具体的には、抽出された値の修正、申告書のレビュー、最終的な提出物の承認などです。
Codex における結果は、曖昧な警告ではなく、証拠付きの範囲限定されたエンジニアリングタスクであり、編集可能な製品表面と明確な検証ゲートを持っています。代表的な賃貸物件タスクのコンテキストは以下のように要約できます:
境界を設けた Codex タスク環境では、書き込み可能なワークツリー [1] と読み取り専用のプロダクションコンテキスト [5] が分離されています。ワークツリーには、Codex が検査または変更できる範囲限定された製品表面 [2]、成功を定義するターゲットおよび回帰評価 [3]、タスクの実行方法や過去の決定を尊重する方法をエンコードした再利用可能なスキル/ドキュメント [4] が含まれています。読み取り専用コンテキストは、プロダクションのトレース、ソースドキュメント、Tax AI の予測、確定された申告書、および税務エンジニアフィールドのドキュメンテーションを提供し、Codex は基盤となる証拠を変更せずに障害を調査できます。
新領域への展開
このループは賃貸物件以外の分野にも適用されます。賃貸物件では、90% の精度と再現率に到達するまでに約 6 週間と相当なエンジニアリングの監督が必要でしたが、その作業により再利用可能な抽象化、レビュー成果物、評価規約、実装パターンが生まれ、Schedule C や Schedule A といった同様に複雑なスケジュールをサポートしやすくなりました。
Tax AI は、自己改善型エージェントを構築する道筋を実証しています。実践者はサービスを提供することで高価値のフィードバック信号を生成します。プロダクトワークフローは、これらの信号を構造化された証拠として保存します。評価に裏打ちされたエンジニアリングシステムは、本番環境へ展開される前に改善を検証し、エージェントが駆動するループによってシステムは継続的な自己改善の流れを維持します。
Thrive Holdings の構造により、特定の業界でこの環境を再現することが可能です。Holdings は所有者であり運営者でもあるため、当社の統合されたエンジニアリングチームは、Crete などの企業内部の実践者や本番データと直接連携できます。これはベンダーではなくパートナーとしてです。つまり、技術、プロダクト、サービスがすべて同じ屋根の下にあり、これにより私たちはより迅速に進み、卓越した製品を構築できるのです。
昨年会計処理に 180 時間を費やしたあるシニア会計士は、今年はわずか 15 時間で済ませました。彼女はその時間の一部を、すべての顧客に電話をかけ、税務申告書の手順を案内する高品質なサービスに充てました。これは一年前には不可能だったレベルのハイタッチ・サービスです。残りの時間は、新規顧客の獲得と新しいサービス提供への拡大に使用しました。
これにより、当社のチームは現在、Thrive Holdings 内の他のドメインにおけるワークフロー構築の青写真として、Tax AI で採用されている同じ三部構成の設計を共有して活用しています。これには、会計分野での簿記や監査のワークフロー、IT ヘルプデスク自動化などの運用ワークフローが含まれます。ドメインや業界を超えて、自己改善型エージェントが持つ広範な可能性に期待が高まっています。最も優れたエージェントは、人間によって導かれながら学習し、時間とともにより能力を高め、信頼され、価値ある存在へと進化していきます。
このプロジェクトに関わった OpenAI チームについて詳しく知りたい方は、お問い合わせください。
原文を表示
*How Thrive Holdings and OpenAI co-developed Tax AI for Crete accountants by fusing practitioner expertise with a Codex-driven loop*
Real-world systems behave differently in production than they do in a lab, breaking in ways that are hard to anticipate before deployment. Teams often discover those failures after launch, then spend weeks inspecting edge cases, adjusting prompts, and translating production feedback into durable product improvements. The feedback loop is manual and slow, and only improves when an engineer advances it. But today, with thoughtfully designed eval infrastructure, direct access to practitioners and real world environments, and the frontier agentic capabilities of Codex, you can build agents that self-improve.
In this post, we’ll unpack how we used Codex to build this type of agent. Over the past six months, OpenAI forward deployed engineers and researchers along with Thrive Holdings’ engineers collaborated to build Tax AI alongside and for Crete(opens in a new window)’s network of 30+ accounting firms to help prepare increasingly complex tax returns. Instead of relying on engineers to find and fix each failure, Tax AI uses Codex to turn production use into structured signals that fuel autonomous improvement.
Crete practitioners prepare tens of thousands of tax returns each season which requires working through millions of underlying documents. For medium- to large-complexity filings, data entry alone can take eight hours per return, often involving messy data sources, prior-year documents, and manual extraction and calculation. They pointed us to tax preparation as a significant bottleneck during the busiest stretch of tax season.
To solve this problem, Tax AI processed 7,000 tax returns across the Crete firms that participated in the pilot this tax season. The system automates much of the time-intensive process of preparing 1040 and 1041 tax returns, but even more compelling than the efficiency gains is that the system itself is measurably better than the version that was first deployed three months ago.
Measurable self-improvement
In Tax AI, practitioners upload source files along with any client-specific notes. Tax AI then creates a tax engine submission, ready for review. It saves practitioners about a third of their time on tax preparation, drafts returns with up to 97% accuracy, and increases throughput by about 50%, creating more room for them to spend time with clients.
We can quantify this improvement by understanding how accurately Tax AI can complete a return without needing correction later. We measure accuracy by checking what share of returns reach 75%, 90%, or 100% correct field completion. At launch, only a quarter of returns were at 75% correct field completion, but within six weeks, 86% hit that mark. The system showed even faster growth at the 90% and 100% correct field completion levels. These thresholds give us a practical view of how much practitioner follow-up different returns still require.
Early on, Tax AI handled simpler work, like W-2s and 1099s. As the season went on, it moved into more complex returns with K-1s, schedules, and harder edge cases. Each new capability saved more time per return than the last because the tasks it took on were harder and more time consuming to do manually. We continue to see ongoing progress today.
Next, we’ll walk through how our teams co-engineered Tax AI to be self-improving by leaning on three critical pillars: 1) expert practitioner feedback, 2) production traces (a structured history from inputs through final output), and 3) a Codex-driven iteration loop based on tailored evals to enable continuous, faster product development. We hope our experience will be useful to other builders in domains where practitioner expertise is key to shaping the quality of the overarching system and the data running through it.
The problem
As we pushed into harder parts of tax preparation (K-1s, rental real estate schedules, and tax forms where values had to be reconciled across multiple source files), it became obvious that the real challenge was whether the product could make complex production failures visible, understandable, and actionable.
In the early days of the product, most of the correction was manual. Practitioners could correct system errors, but the product did not capture the full context: a changed value before filing might reflect a true extraction miss, a mapping problem, missing product support, or expected workflow noise. Sorting those cases out still required follow-up from the engineering team. Engineers could use coding agents, but the system was not yet designed to use AI meaningfully inside an improvement loop. We did not have the signal to identify the right hill to climb.
Our approach: a three-part loop
That led us to design the system around three pillars:
- Stay close to practitioners: The people doing the work need to steer what the product learns. Their intuition and understanding reveal which errors matter and help inform which parts of the workflow are worth focusing on next.
- Build the product so production creates evidence: The product has to capture more than just inputs and outputs; it needs to capture the full path from source material, to extracted fields and provenance, to downstream submission and expert correction.
- Create a Codex-driven improvement loop: Once production issues are visible and structured, they can become findings, tailored evals, and scoped engineering tasks. Codex can then help investigate, propose changes, validate them against targeted and regression evals, and move the product forward faster than a purely manual iteration cycle.
The rental properties example below shows how that loop works in practice, walking you through how a practitioner correction becomes a structured finding, then an eval target, and finally a Codex-scoped engineering task.
Rental property example
Rental property income is reported on Schedule E of an individual tax return. From an engineering perspective, the task of extracting it is simple to describe but hard to do well. The system has to read messy source material (handwritten notes, emails, spreadsheets, and other client files), extract the rental-property fields the system can confidently map to the tax engine, and preserve enough evidence that a practitioner can approve or correct the result. The simplified example below shows what those source files and extracted outputs might look like.
1. A practitioner correction reveals a failure
A difference between the agent-predicted value and the actual value from the filed tax return might reflect a true extraction miss, but it could also be a practitioner preference, a value carried forward from a prior-year return in the tax engine, or a value introduced or changed elsewhere in the filing workflow. Practitioners helped us discern those cases so we could identify which actions required a practitioner correction or blocked a submission.
Because we could see these corrections in detail, we transformed the review process from a terminal, post-failure step into a continuous learning cycle. We designed the workflow to capture expert actions as structured data. Now, every intervention feeds the product's improvement loop by recording exactly what Tax AI proposed, what the practitioner modified, and what ultimately went into the filed return.
2. Product traces turn corrections into evals
For a complex workflow like rental properties, the system has to preserve what happens between the source files and the filed return. Along that path, documents are organized, split, and classified; rental-property fields are extracted with citations back to the source material; those values are mapped into the tax engine; and practitioners may still correct them before filing. Those product-level traces make it possible to investigate where a failure occurred. To turn practitioner corrections into useful evaluation targets, the system processes them in three steps:
- Capture the difference: Tax AI’s output is compared with the filed return to produce field-level review rows that capture the expected value, predicted value, and whether the difference appears actionable.
- Group related failures: Similar review rows are grouped to separate recurring product failures from expected workflow noise. For example, repeated practitioner corrections might show that Tax AI often misses fair-rental-day fields, mishandles “other expenses,” or confuses multiple rental properties across the same source package.
- Turn repeated patterns into eval targets: Once reviewed and measured, repeated findings become clear eval targets for Codex to improve.
3. The finding becomes a hill to climb for Codex
The third pillar is creating an engineering loop capable of acting on these new evals. This is where Codex becomes central.
Suppose our eval pipeline flags that Tax AI consistently misses the "fair rental days" field, while practitioners reliably fill it in. Because this finding has already been packaged into a targeted eval set, with representative source packages and expected outputs, Codex can investigate the root cause directly within the product scaffold.
Codex isn’t working solely with a sub-par final output. It inspects the trace, eval, repo, and skills together:
- Investigate the pipeline: Inspect source packages, extraction schemas, mapper behavior, and code paths to determine whether the issue is an unsupported field, a missed extraction pattern, a source-selection problem, a mapper gap, or a grader issue.
- Implement targeted fixes: Extend the extraction schema, improve source selection for rental-property documents, update the tax-engine mapper, or refine the grader if expected workflow noise is being counted as a failure.
- Validate and propose: Rerun the targeted eval, run broader regression suites, and surface a candidate pull request for engineering review.
- Close the loop: Turn a recurring practitioner correction into a measurable engineering task. If the evidence is ambiguous or not safely automatable, the case routes back to the product team instead of being forced through the loop.
How to use Codex to build this loop
The rental property example is emblematic of a broader reusable pattern: using production artifacts and traces to improve an agent’s capabilities. Given reviewed findings from production data, source traces, expected tax-engine output, relevant code examples, and eval commands as a set of inputs, Codex can materially improve on performance and accuracy over weeks and months. This builds on the principles described in our work onharness engineering and Symphony, which walk-through how to make tasks legible to Codex, provide scoped context and tools, and keep validation and human review part of the environment.
That evidence does not become a Codex task automatically. A practitioner correction may reflect an extraction miss, a mapping issue, unsupported product behavior, tax judgment, or expected workflow noise. Only after repeated differences have been reviewed and grouped into an actionable finding does the system turn them into a bounded task with a clear success condition.
We apply this automation to a bounded layer of the product. This layer performs extraction and maps source documents into tax workflows. Engineers remain responsible for architecture, product decisions, and shipping. Practitioners steer the improvement loop through the work they already do: correcting extracted values, reviewing returns, and approving final filings.
For Codex, the result is not a vague alert but a scoped engineering task with evidence, editable product surfaces, and explicit validation gates. The context for a representative rental property task can be summarized as follows:
A bounded Codex task environment separates the writable worktree [1] from read-only production context [5]. The worktree contains the scoped product surface Codex can inspect or modify [2], the targeted and regression evals that define success [3], and reusable skills/docs that encode how to run the task and respect prior decisions [4]. The read-only context provides the production trace, source documents, Tax AI prediction, finalized return, and tax-engine field documentation, so Codex can investigate the failure without mutating the underlying evidence.
Expanding to new domains
The same loop applies beyond rental properties. Rental properties took about six weeks and substantial engineering oversight to reach 90% precision and recall, but that work produced reusable abstractions, review artifacts, eval conventions, and implementation patterns that made it easier to support similarly complex schedules such as Schedule C and Schedule A.
Tax AI proves a path to building self-improving agents. Practitioners generate high-value feedback signals by delivering the service. Product workflows preserve those signals as structured evidence. Eval-backed engineering systems validate improvements before they reach production, and an agent-powered loop keeps the system in a continuous self-improving flow.
Thrive Holdings’ structure allows us to replicate this environment in specific industries. Holdings is both an owner and operator, so our combined engineering teams are able to work directly with practitioners and production data from inside businesses like Crete, not as a vendor but as partners. This means the technology, the product, and the service all sit under one roof to help us move faster and build exceptional products.
One senior accountant who spent 180 hours on tax prep last year spent only 15 hours on it this year. She put that time in part toward calling every one of her clients and walking them through their returns, a level of high touch service that wasn’t possible a year ago. The rest of that time she used to take on new clients and expand to new service offerings.
Together, our teams are now using the same three-part design from Tax AI as a blueprint for building workflows in other domains across Thrive Holdings(opens in a new window); accounting workflows such as bookkeeping and audit, and operational workflows such as IT help desk automation. Across domains and industries, the broader promise of self-improving agents holds. The best agents are steered by people to learn to become more capable, more trusted, and more valuable over time.
*To learn more about the OpenAI team that worked on this project, *get in touch*.*
関連記事
OpenAI Codex を活用した 5 つの楽しいプロジェクト
KDnuggets が紹介する記事では、OpenAI のコード生成モデル「Codex」を実際に使用して作成された 5 つの興味深いプロジェクト事例が紹介されています。
OpenAI、Codex のブラウザ操作機能に CDP サポートを追加(2 分読)
OpenAI は開発者向け AI コード生成ツール「Codex」に Chrome DevTools Protocol(CDP)サポートを導入し、JavaScript パフォーマンスのリアルタイム分析やウェブサイト改変を可能にした。ただしこの新機能は現在、早期アクセス限定で欧州経済地域・英国・スイスでは利用不可であり、パフォーマンス課題も残っている。
OpenAI、長期実行型エージェント向け企業 Ona を買収
OpenAI は、安全なクラウド実行とオーケストレーション機能を Codex プラットフォームに統合するため、Ona 社を買収すると発表した。これにより、エージェントが長時間にわたって継続して作業できる環境が実現される。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み