金融タスクにおける専門家判断の模倣学習(14 分読了)
Thinking Machines は高品質な人間注釈を用いることで、LLM に金融分野の専門家の判断力を習得させ、汎用モデルを上回る精度とコスト効率を実現した。
キーポイント
金融タスクにおける LLM の限界と克服
公開情報へのアクセスが同等であるため、投資のアルファは経験に基づく「味覚」と「判断」に依存するが、LLM は単純なフィルタリングや解釈でも苦戦していた。
高品質な人間注釈による学習
汎用モデルを微調整するのではなく、専門家の判断プロセスを詳細に記述した高品質なデータセットを用いて訓練することで、LLM に専門家レベルの判断力を習得させた。
独自モデルの実証結果
情報精度とリコールにおいて、テストされたすべての最先端(frontier)モデルを上回る性能を発揮し、かつそのコストは数分の1に抑えられた。
組織特化型知性の展望
汎用 AI ではなく、特定の組織のニーズや判断基準に合わせてチューニングされた「差別化された知性(differentiated intelligence)」の実現可能性を示した。
単純なプロンプトでは専門家レベルに達しない
Gemini、Claude、GPTなどの最先端モデルを単なる指示だけでテストした結果、平均精度は約50%にとどまり、投資家が信頼できる基準(80%)には届かなかった。
専門家の文脈理解に基づくプロンプト設計が有効
専門家による具体的な指示とタスクの再定義(例:「関連性ありかつ興味深い」「関連性はあるが興味薄い」「無関係」の3分類)を行うことで、精度を約75%まで引き上げることができた。
自動プロンプト最適化には限界がある
専門家が作成した最適なプロンプトを用いても、さらに精度を上げるための自動プロンプト最適化手法からは追加の効果は見られなかった。
影響分析・編集コメントを表示
影響分析
この記事は、LLM が単なる情報処理ツールから、特定の分野の専門家のような高度な判断を下せるようになるとき到来したことを示唆しています。特に「高品質な人間注釈」の重要性を強調しており、今後の AI 実装において、データ収集やラベル付けの質が競争優位性を決定づける重要な要素となるでしょう。金融業界に限らず、医療や法律など専門判断が必要なあらゆる分野での AI 活用における新しいパラダイムを提供しています。
編集コメント
「AI は万能ではない」という前提に立ち、専門家の知見をデータ化することで汎用モデルの弱点を補完するアプローチは、実務現場における AI 導入の成功確度を高める重要な示唆です。
Judging information#
市場に勝つことは難しい。すべての投資家が同じ公開情報源へのアクセスを持っている場合、アルファは、味と判断力に基づいた独自の洞察から生まれる必要がある。優れた投資家の判断力は、人間であれ AI であれ、他者に明確に説明したり直接教えたりすることは難しく、経験から得られるものである。
投資家の仕事を最も単純な構成要素に分解しても、それらのタスクは LLM(大規模言語モデル)にとって驚くほど難しいことが明らかになる。本稿では、投資判断に関連する情報を浮き彫りにするために金融文書をフィルタリングおよび処理するという、簡単な特殊ケースを検討する。
投資家は毎日、ニュース記事、調査レポート、会社文書、メール、社内資料など、無数の情報にさらされている。読むこと自体は容易な部分である。真の仕事は、その上で行われる小さな反復的な判断——フィルタリング、解釈、セグメンテーション(分割)、そして有用なシグナルがどこにあるかを特定すること——である。これらの判断は投資家の日常業務の至る所に埋め込まれており、多大な時間を消費する。
私たちは、情報のトリアージ(選別)タスクを自動化できないか、つまり何を関連性があり興味深いと読み取るべきかを特定できるかを探ってみたかった。これだけでも投資家の生産性を大幅に向上させ、解放された注意資源をより高次な統合や意思決定に集中させることができるだろう。
LLM が単純な金融タスクにおいて性能が低いことが分かっているため、私たちは「LLM に金融判断を教えることは可能か」と問いかけました。その結果、高品質な人間の注釈を用いることで、LLM に専門家レベルの品味と判断力を持ってテキストを解釈させることができることが分かりました。私たちの独自モデルは、コストがそれらのモデルの数分の一であるにもかかわらず、情報精度と再現率においてテストしたすべての最先端モデルを上回っています。
私たちは、公開リリースが許可されたデータのサブセットにおけるトレーニングプロセスと結果について記述します。また、これらの結果に基づき、特定の組織のニーズに合わせて調整されたモデルを特徴とする「差別化された知性」というビジョンの萌芽についてもさらに説明します。
最先端モデルのパフォーマンス#
私たちは、投資家の日常業務から抽出した6つの情報フィルタリングタスクにおいてモデルを評価しました。これらのタスク以外にも、内部では同様のパターンを示す多くのタスクがあり、テストした最先端モデルは、私たちが内部でトレーニングしたモデルに比べて性能が劣っています。
精度(投資家がラベル付けした文書が正しく分類された割合)を測定しました。分類タスクについては、F1 スコアも計算しました。F スコア (Wikipedia)。
01
金融記事の関連性
金融記事が与えられた場合、それが C レベルの投資専門家に関連するかどうかを分類します。
EVAL METRICS
F1 スコア、精度
02
中央銀行文書の関連性
中央銀行の文書を与えられた場合、それが将来の金利変動の方向を示唆しているかどうかを分類してください。
評価指標
F1 スコア、精度
03
汎用文書の関連性
投資家の質問と調査文書が与えられた場合、その文書が質問への回答に役立つかどうかを分類してください。
評価指標
F1 スコア、精度
04
アドホックなコンテンツのラベル付け
調査文書は、反復されるもの(繰り返し使用される定型文)か、混合されたもの(定型文に加え、一度限りの問題固有の分析を含むもの)のいずれかです。どちらに該当するかを分類し、問題固有のコンテンツが終了する最後のページを特定してください。
評価指標
精度
05
文書の切り捨て
文書内で定型文コンテンツが始まる箇所を特定してください。
評価指標
完全一致精度
06
メールの切り捨て
メール内で定型文コンテンツが始まる箇所を特定してください。
評価指標
完全一致精度
本ブログ記事で評価する 6 つの金融タスクは、いずれも投資家の日常的な業務から抽出されたものです。
これらのタスクは投資家にとっては些細なものですが、意思決定のプロセスを言語化する際にはつまずくことがあります。以下に、ニュース記事を投資専門家に関連すると分類する例を示します:
関連なし
トランプ氏はグリーンランドは自分のものだと主張する

© Jeremy Banx
Relevant
トランプ氏が新たな中国関税を脅すため、米国株が大幅安で引けた
image
4 月以来となる S&P500 の1日最大下落幅により、数週間にわたる上昇相場がストップ © AFP/Getty Images
米国市場に対する金融記事の関連性を判断する例。出典:Financial Times。
グリーンランドに関する記述は記事の文脈を考慮すれば真剣に受け取られることは unlikely ですが、中国関税は極めて関連性が高いと言えます。両方の事例とも地政学と金融の双方に触れています。
我々の投資家とは対照的に、テストしたフロンティアモデル(最先端モデル)は驚くほど低い性能を示しました。Gemini、Claude、GPT の各バリアントは、6 つのタスクを単純に指示するプロンプトを与えられた場合、平均してわずか約 50% の精度しか発揮できませんでした。
まず、より強力なプロンプトを用いて大規模言語モデル(LLM)のパフォーマンスを向上させる試みを行いました。専門家は実際のタスク記述に基づき指示を作成し、特定のタスクの枠組みを再構成するよう提案しました。例えば、小規模な新規株式公開(IPO)に関する記事は明らかに金融関連ですが、ブリッジウォーター・アソシエイツのマクロ経済投資家にとって興味深いものとなる広範な重要性には欠けています。LLM は、ニュース記事を「関連性があり興味深い」「関連性はあり興味がない」「無関係」の 3 つのラベルに分類するよう指示された際、記事分類タスクにおけるパフォーマンスが向上しました。
これらの変更により、精度はコイン投げ(50%)から約 75% 台前半へと引き上げられました。自動プロンプト最適化手法からはさらに精度を向上させる効果は見られませんでした。最良のプロンプトを用いても、テストした最先端モデルの精度はまだ 80% を下回っており、これは投資家が日常業務で信頼できるシステムに求める閾値には達していません。
47.2
77.2
50.1
74.3
47.2
75.8
48.5
78.2
45.6
78.0
手動および自動プロンプトエンジニアリングを適用した後の、最先端モデルの金融タスクにおける精度と正クラス F1 スコア。F1 スコアは 3 つの分類タスクにわたって平均化され、精度はすべての 6 タスクにわたって平均化されています。
私たちの結果はまた、新しいモデルがこのタスクにおいて急速に改善していないこと、特にコストあたりの性能向上が限定的であることを示唆しています。GPT-5.4 は GPT-5.2 よりも 43% 高価ですが、精度はわずかに高いだけです。
明示的なプロンプトでは、専門家が言葉にできる直観のみを伝えることができますが、最も重要な判断は往々にして言語化するのが最も困難なものです。ファインチューニングはこの問題を回避します:専門家の直観を静的なプロンプトに変形するのではなく、トレーニングプロセスを通じてモデル自身が独自の判断力を発達させるのです。これらのタスクにおいて、オープンウェイトモデルで最先端モデルを上回ることは可能でしょうか?
トレーニングデータセットの構築#
カスタムモデルを訓練する際、最初の課題は高品質な投資家の嗜好を反映したデータセットを取得することでした。特に、多くの情報は投資専門家の判断を通じてフィルタリングされた場合にのみ有用となります。
当初、非専門家によるラベリングを提供するベンダーからデータセットを入手しました。しかし、このデータセットで訓練されたモデルは依然として性能が低く、モデルの推論トレースを検証した結果、データセット内のラベルがしばしば誤っていることが判明しました。専門家のラベラーは高コストであるため、争点のある事例のみを専門家へルーティングする検証スキームを考案しました。
このスキームは以下の通りでした:非専門家によるラベル付けのデータセットでモデルを訓練し、同じデータ上で評価を行いました。モデルの回答とラベラーの回答が一致しない事例については、再評価のために専門家に送付します。もしモデルが自身の学習セットからの事例にも対応できないのであれば、その事例は本質的に困難であるか、あるいは元のラベルが誤りであったかのどちらかです。この手順により訓練セットデータを精査し、最終的な評価は保持されたテストセット上で行いました。
訓練レシピ#
私たちは Thinking Machines Lab の Tinker を用いてモデルを訓練しました。Tinker は、GPU インフラストラクチャについて心配することなく迅速に反復開発を行うことを可能にしました。
ベースモデルとして Qwen3-235B を選択しました。これは微調整(ファインチューニング)の性能が学術文献で広く研究されているためです。
まず、批判者なしの単純な出発点として標準的な GRPO と重要性サンプリング損失を採用しました。このベースラインアプローチによりモデルのパフォーマンスは劇的に向上しましたが、それでも目標とする 80% の閾値には届きませんでした。
Model / Training
Average Accuracy
Average Pos F1
Qwen Base
44.8%
55.24%
Qwen + GRPO
73.48%
88.95%
パフォーマンスをさらに引き上げるために、トレーニングレシピに以下の修正を加えました。
1. インターリーブバッチ処理#
マルチタスク学習のレシピにおいて、3 つのバッチ戦略を比較しました。すなわち、各タスクを順次訓練する方法、バッチ内でタスクを完全に混合する方法、そしてラウンドロビン順序でタスクごとに 1 バッチずつインターリーブ(交互に配置)する方法です。その結果、インターリーブ方式が最も効果的であることが判明し、完全混合バッチと比較して精度が 12.1% 向上しました。
2. 非対称クリッピングを備えた CISPO 損失#
標準的な重要性サンプリング損失に代わり、非対称クリッピング付きの CISPO 損失CISPO loss with asymmetric clipping (arXiv) を採用しました。試した各種損失関数とクリッピングスキームの中でこれが最も優れた結果を示し、重要性サンプリングベースラインと比較して精度が 10.1% 向上しました。
3. 強力な教師によるオンポリシー蒸留#
オンポリシー蒸留On-Policy Distillation (Kevin Lu と他の研究者の共著、Thinking Machines) を用いて訓練を行い、アドバンテージは以下のように構築しました。
r=reward−β⋅avg(student_lp−teacher_lp)
r = \text{reward} - \beta \cdot \operatorname{avg}(\text{student\_lp} - \text{teacher\_lp})
advi=ri−avg(r)
\text{adv}_i = r_i - \operatorname{avg}(r)
報酬は、学生モデルが教師モデルの分布から逸脱した際にペナルティを受け、タスクを学習する過程でポリシーを正則化します。
20 ステップごとに、現在のチェックポイントを教師モデルに昇格させますが、これは検証精度が新たな最高値に達した場合に限られます。これにより、より弱いモデルへ知識蒸留が行われることを防ぎます。この手法は、固定されたベースモデルを教師とした場合と比較してさらに 3.1% の性能向上をもたらしました。
結果#
最適なトレーニングレシピを見つけるには、異なるアプローチの複数の反復が必要でした。Tinker のアクセシビリティにより、迅速な実験を実行し、アプローチを洗練させることができました。
訓練済みモデルと最先端モデルの精度対価格。当社のモデルは、世代を超えて両方の次元において最先端モデルを上回っています。
訓練済みのモデルは平均精度を 78.2% から 84.7% に向上させました。これは、評価した最も優れた最先端モデルと比較して、ミスの数が 29.8% 減少することを意味します。このレベルの精度は、私たちの日常業務に十分であると判断しました。
訓練済みモデルはサイズが小さいため、コストも大幅に削減されています:タスクあたりの推論コストが 13.8 倍減少しました。特定のタスクを支援するために訓練されたモデルをより多く利用し、組織全体で AI をスケールさせる計画があるため、コストは重要な考慮事項です。
各トレーニングレシピの部分をアブレーション(除去実験)することで、それぞれの部分がパフォーマンスにどのように寄与するかを示しました。
トレーニング手法の消融実験
平均精度
平均正例 F1 スコア
Qwen + 最終レシピ
84.66%
92.99%
インターリーブバッチ処理
72.18%
89.01%
CISPO + 非対称クリップ
74.56%
90.64%
OPD (Out-of-Distribution Data)
72.39%
87.93%
最適検証精度教師付き OPD
81.55%
89.41%
各行は、その単一コンポーネントを除外した最終レシピの結果を示しています(leave-one-out 消融実験)
結論#
今回テストしたフロンティアモデルは、比較的単純な金融タスクにおいて苦戦しており、モデルの進化が性能向上に大きく寄与しているわけではありません。一方、我々は、専門家投資家がラベル付けを行った高品質な独自データセットを微調整(fine-tuning)に使用することで、本稿で取り上げたタスクにおいてフロンティアモデルを上回るカスタムモデルを構築できることを示しました。この結果は、本稿で議論した 6 つのタスクを超えても広く当てはまることが判明しています。
精度の高さだけでなく、カスタムモデルは大幅に低コストです。今後、Tinker のような迅速な実験を可能にするトレーニングインフラストラクチャが利用可能になることで、カスタムモデルのトレーニングからさらなる生産性向上が見られると予想されます。
我々の結果は、特定の組織ニーズに合わせて調整されたカスタムモデルがフロンティアモデルを上回るという、差別化された知能(differentiated intelligence)への未来の可能性を示しています。
引用#
本論文を以下のように引用してください:
Su, Sarah; Zhu, Kevin; Xiao, Emily; Alur, Rohan; Kang, Daniel (Bridgewater AIA Labs), "Learning to replicate expert judgment in financial tasks",
Thinking Machines Lab: News, June 2026.
または、以下の BibTeX 引用を使用してください:
@article{su2026expertjudgment,
author = {Sarah Su, Kevin Zhu, Emily Xiao, Rohan Alur, Daniel Kang (Bridgewater AIA Labs)},
title = {Learning to replicate expert judgment in financial tasks},
journal = {Thinking Machines Lab: News},
year = {2026},
note = {https://thinkingmachines.ai/news/learning-to-replicate-expert-judgment-in-financial-tasks/}
}
原文を表示
Judging information#
Outperforming the market is hard. When every investor has access to the same sources of public information, alpha must come from unique insight built on taste and judgment. A strong investor’s judgment is difficult to articulate and teach directly to others, whether human or AI. It comes from experience.
Even when we decompose an investor’s job into its simplest constituent tasks, those tasks turn out to be surprisingly difficult for LLMs. In this post, we consider a simple special case: filtering and processing financial documents to surface information relevant to investment decisions.
Investors are bombarded with information every day: news articles, research reports, company documents, emails, internal write-ups, and more. Reading is the easy part. The real work is the small, repeated judgments carried over it — filtering, interpreting, segmenting, and identifying where the useful signal lies. These judgments are embedded throughout an investor’s daily workflow and consume substantial time.
We wanted to see if we could automate the information triage task: identifying what is relevant and interesting to read. This alone could greatly augment investors’ productivity, letting them spend their freed up attention on higher-level synthesis and decision making.
Given that LLMs perform poorly on simple financial tasks, we asked: is it possible to teach LLMs financial judgement? We find that with high-quality human annotations, we can teach LLMs to interpret text with expert-level taste and judgement. Our proprietary model outperforms all frontier models we tested on information accuracy and recall, at a fraction of their cost.
We describe our training process and results on a subset of data cleared for public release. Based on our results, we further describe the seeds of a vision of *differentiated intelligence*, with models tuned for specific organizational needs.
Frontier model performance#
We evaluated models on six information filtering tasks drawn from investors’ daily workflows. Beyond these tasks, we have many others internally that show similar patterns to these six tasks: frontier models we tested on underperform compared to our internally trained models.
We measured accuracy — the percentage of documents that were correctly labeled according to our investors. For classification tasks, we also calculated the F1 score.F-score (Wikipedia).
These tasks are trivial for investors, but they get stuck when articulating their decision process. Consider the following example of classifying a news article as relevant to an investment professional below:

The Greenland example is unlikely to be taken seriously given the context of the article, while the China tariffs are highly relevant. Yet both examples touch on geopolitics and finance.
In contrast to our investors, frontier models we tested on perform surprisingly poorly. Variants of Gemini, Claude, and GPT averaged a mere ~50% accuracy when given a prompt that simply states each of the six tasks to perform.
We first tried to improve LLM performance with stronger prompting. Our experts wrote instructions based on real task descriptions, and also suggested reframing certain tasks. For example, while an article about a small IPO is clearly financially relevant, it lacks the broad significance that would make it interesting to a macroeconomic investor at Bridgewater. LLM performance on the article classification task improved when they were asked to sort news stories into three labels: relevant and interesting, relevant but uninteresting, and irrelevant.
These changes boosted their accuracy from a coin flip to the mid-70s. We saw no further gains in accuracy from automatic prompt-optimization methods. With our best prompts the frontier models we tested on still achieved less than 80% accuracy — the threshold investors expect from a system they could trust in their daily workflow.
Our results also suggest that newer models aren’t improving rapidly at this task, especially per dollar spent. GPT 5.4 costs 43% more than 5.2 but is only marginally more accurate.
An explicit prompt can only convey the intuition an expert is able to put into words, while the judgments that matter most are often the hardest to articulate. Fine-tuning sidesteps this: rather than contorting the expert’s intuition into a static prompt, the training process lets the model develop its own judgment. Could we train open-weight models to outperform frontier models we tested on these tasks?
Training dataset construction#
The first challenge of training a custom model was acquiring a dataset that reflects high-quality investor taste. In particular, much of the information is only useful when filtered through an investment professional’s judgment.
We initially sourced a dataset from vendors providing non-expert labeling. Models trained on this dataset still performed poorly. After examining the reasoning traces of the model we realized that the labels in the dataset were often wrong. Since expert labelers are costly, we devised a verification scheme that routes only the contested examples to experts.
The scheme worked as follows: we trained a model on the dataset from non-expert labelers, then evaluated it on the same data. Examples where the model’s answer differed from the labelers’ were sent to our experts for reevaluation — if a model couldn’t match an example from its own training set then either the example is genuinely difficult, or the original label was wrong. This procedure was used to clean the training set data; the final evaluation was done on a held out test set.
Training recipe#
We trained our models on Tinker from Thinking Machines Lab.Tinker. Tinker allowed us to iterate quickly without worrying about GPU infrastructure.
We chose Qwen3-235B as the base model as its fine-tuning performance is widely studied in the academic literature.
We began with standard GRPO and importance-sampling loss as a simple, critic-free starting point. This baseline approach resulted in a massive jump in the model performance, but it still fell short of our desired 80% threshold.
Model / Training
Average Accuracy
Average Pos F1
Qwen Base
44.8%
55.24%
Qwen + GRPO
73.48%
88.95%
We make the following modifications to our training recipe to push performance farther:
1. Interleaved batching#
For our multi-task training recipe, we compared three batching strategies: training each task sequentially, fully mixing tasks within a batch, and interleaving one batch per task in round-robin order. We found interleaving worked best, improving accuracy by 12.1% over fully mixed batches.
2. CISPO loss with asymmetric clipping#
We used CISPO loss with asymmetric clippingCISPO loss with asymmetric clipping (arXiv). to replace the standard importance-sampling loss. Across the loss functions and clipping schemes we tried, this performed best, improving accuracy by 10.1% over the importance-sampling baseline.
3. On-policy distillation with strong teachers#
We train with on-policy distillationOn-Policy Distillation, Kevin Lu in collaboration with others (Thinking Machines). (OPD), constructing the advantage as follows:
r=reward−β⋅avg(student_lp−teacher_lp)
r = \text{reward} - \beta \cdot \operatorname{avg}(\text{student\_lp} - \text{teacher\_lp})
advi=ri−avg(r)
\text{adv}_i = r_i - \operatorname{avg}(r)
The reward is penalized when the student drifts from the teacher’s distribution, regularizing the policy while it learns the task.
Every 20 steps, we promote the current checkpoint to the teacher — but only if validation accuracy has reached a new high, so we never distill toward a weaker model. This gave a further 3.1% gain over a frozen base-model teacher.
Results#
Finding the optimal training recipe required several iterations of different approaches. Tinker’s accessibility allowed us to run fast experiments and refine our approach.
Our trained model improves average accuracy from 78.2% to 84.7%, meaning the trained model makes 29.8% fewer mistakes than the best frontier model we evaluated. We find this level of accuracy is sufficient for our daily work.
Our trained model is also vastly cheaper due to its smaller size: a 13.8x reduction in inference costs per task. As we plan to rely on more models trained to help with specific tasks and to scale AI across the organization, cost is an important consideration.
We ablated each part of our training recipe to show how each portion contributes to performance.
Conclusion#
Frontier models we tested on struggle with relatively simple financial tasks, and model advances don’t improve performance much. In contrast, we’ve shown that high-quality proprietary datasets labeled by expert investors and used for fine-tuning produce custom models that exceed frontier performance on our tasks. We have found that this outcome holds true well beyond the six tasks we’ve discussed in this post.
Aside from higher accuracy, custom models are also substantially cheaper. We expect to see more productivity gains from custom model training in the future, especially with the availability of training infrastructure like Tinker that enables rapid experimentation.
Our results show the possibility of a future of differentiated intelligence, where custom models tuned to specific organizational needs outperform frontier models.
Citation#
Please cite this work as:
Su, Sarah; Zhu, Kevin; Xiao, Emily; Alur, Rohan; Kang, Daniel (Bridgewater AIA Labs), "Learning to replicate expert judgment in financial tasks",
Thinking Machines Lab: News, June 2026.
Or use the BibTeX citation:
@article{su2026expertjudgment,
author = {Sarah Su, Kevin Zhu, Emily Xiao, Rohan Alur, Daniel Kang (Bridgewater AIA Labs)},
title = {Learning to replicate expert judgment in financial tasks},
journal = {Thinking Machines Lab: News},
year = {2026},
note = {https://thinkingmachines.ai/news/learning-to-replicate-expert-judgment-in-financial-tasks/}
}
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み