チェーン・オブ・テーブル:表理解のための推論チェーンにおける表の進化
Google Researchの研究者らは、大規模言語モデルが表形式データを段階的に更新・簡略化しながら推論を行う「Chain-of-Table」フレームワークを提案し、複数のベンチマークで新たな最高精度を達成した。
キーポイント
表理解の課題と新アプローチ
大規模言語モデルはテキストデータに強みを持つが、構造化された表データの理解・推論には課題があった。本研究では、モデルが推論ステップごとに表を更新・進化させる「Chain-of-Table」フレームワークを提案した。
人間の思考プロセスに着想
このアプローチは、人間が表ベースの問題を解く際に表を段階的に簡略化・分割して分析するプロセスを模倣しており、モデルが表の各部分を深く理解できるようにする。
ベンチマークでの優れた性能
提案手法は、WikiTQ、TabFact、FeTaQAという3つの主要な表理解ベンチマークにおいて、大幅な改善と新たな最高精度(state-of-the-art)を達成した。
推論チェーン手法の拡張
Chain-of-Tableは、テキスト推論で成果を上げたChain-of-ThoughtやLeast-to-Mostといった手法を、構造化データ(表)の理解という領域に応用・発展させたものである。
Chain-of-Tableの基本概念
LLMにin-context learningを用いて、表に対する操作を反復的に生成・実行させ、表を段階的に進化させることで、表データに対する推論チェーンを構築する手法。
推論プロセスの構造化と解釈可能性
表の段階的な操作と中間結果の表示により、推論プロセスが構造化され、解釈可能性と理解が向上する。
大規模表への効率化対応
計算コストを考慮し、大規模な表に対しては行のサブセットを用いて操作チェーンを構築することで、性能と効率のバランスを取っている。
影響分析・編集コメントを表示
影響分析
この研究は、大規模言語モデルの重要な弱点である構造化データ(表)の理解・推論能力を飛躍的に向上させる可能性を示した。実世界で広く利用される表データの分析自動化や、金融、研究、ビジネスインテリジェンスなど多様な分野へのAI応用の道を開く重要な進展である。
編集コメント
LLMの弱点領域に挑戦し、実証的な成果を上げた基礎研究。表データという普遍的な情報形式への適用可能性から、学術的価値だけでなく長期的な実用インパクトも期待できる。
Cloud AI チームの学生研究員である Zilong Wang と、研究科学者の Chen-Yu Lee によって投稿されました

人々は、複雑な情報を構造化され、容易にアクセス可能な形式で整理・解釈するために、毎日表を利用しています。このような表の普及により、表データに対する推論は長年 自然言語処理 (NLP) の中心的なトピックとなってきました。この分野の研究員たちは、言語モデルを活用して、ユーザーが表に基づいて質問に答えたり、記述を検証したり、データを分析したりするのを支援することを目指しています。しかし、言語モデルは大量のプレーンテキストで訓練されているため、表データの本質的な構造化された性質を、言語モデルが完全に理解し活用することは困難です。
最近、大規模言語モデル(LLM)は、Chain-of-Thought や Least-to-Most などの研究に示されるように、信頼性の高い推論連鎖を生成することで、多様な自然言語理解タスクにおいて優れたパフォーマンスを達成しています。しかし、LLM が表データに対して推論を行う最も適切な方法は、依然として未解決の課題です。
「Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding」という論文では、表理解タスクに対処するためのフレームワークを提案します。このフレームワークでは、LLM に思考プロセスの一部を反映させるために与えられた表を反復的に更新し、段階的に推論の概要を描くように訓練します。これは、人々が表ベースの問題を解決する際の手法に似ています。これにより、LLM は表をより単純で管理しやすいセグメントに変換でき、表の各部分を深く理解・分析することが可能になります。このアプローチは、WikiTQ、TabFact、FeTaQA の各ベンチマークにおいて顕著な改善をもたらし、新たな最高性能(state-of-the-art)の結果を達成しました。以下の図は、提案された Chain-of-Table と他の手法のハイレベルな概要を示しています。
複雑な表において、サイクリストの国籍と名前が同じセルに含まれている場合、(a) 汎用的な多段階推論では正解を提供できず、(b) プログラム支援型推論は回答を導き出すためにプログラム(例:SQL クエリ)を生成・実行するものの、質問に正確に対応するには至らず、(c) Chain-of-Table は、複雑な表を質問に特化したバージョンへと効果的に変換する一連の操作を反復サンプリングすることで対応します。
Chain-of-Table では、in-context learning(文脈内学習)を用いて大規模言語モデル(LLM)を誘導し、表の推論連鎖を表すために操作を反復生成して表を更新します。これにより、LLM は過去の結果に基づいて次の操作を動的に計画できるようになります。このように表が連続的に進化していく過程が連鎖を形成し、与えられた問題に対する推論プロセスをより構造化され明確な形で表現するとともに、LLM からのより正確で信頼性の高い予測を可能にします。
例えば、「NAACP イメージ賞を最も多く受賞している俳優は誰か?」という質問に対して、Chain-of-Table フレームワークは LLM に表の推論プロセスを模倣した表操作を生成させるよう促します。まず関連する列を特定し、次に共通の内容に基づいて行を集約します。最後に集約された結果を並べ替えて、提示された質問に明確に答える最終的な表を導き出します。
これらの操作は、提示された質問に合わせてテーブルを調整するために用いられます。大規模なテーブルにおける計算コストとパフォーマンスのバランスを取るために、テーブル行の一部に基づいて操作チェーンを構築します。同時に、段階的な操作を通じてテーブル操作からの中間結果が表示されることで、背後にある推論プロセスが明らかになり、解釈可能性と理解が向上します。
Chain-of-Table におけるテーブル推論プロセスの概要。この反復プロセスでは、動的に操作チェーンを計画し、変換されたテーブルに中間結果を正確に保存します。これらの中間テーブルは、LLM がより確実に正解に至るよう導くための「テーブル思考プロセス」として機能します。
Chain-of-Table は3 つの主要な段階から構成されています。最初の段階では、コンテキスト内学習(in-context learning)によって LLM に次の操作を動的に計画させる指示を出します。具体的には、以下の図に示すようにプロンプトは 3 つの要素で構成されます:
- 質問 Q:「上位 3 位以内に入国したサイクリストが最も多い国はどこか?」
- 操作履歴チェーン:f_add_col(Country) および f_select_row(1, 2, 3)
- 最新の中間テーブル T:変換された中間テーブル
プロンプトに (T, Q, chain) のトリプレットを提供することで、LLM は過去のテーブル推論プロセスを観察し、操作プールから次の操作を選択して、段階的に推論チェーンを完成させることができます。
Chain-of-Table が操作プールから次の操作を選択し、その引数を生成する様子を示した図。(a) Chain-of-Table は操作プールから次の操作をサンプリングします。(b) 選択された操作を入力として受け取り、その引数を生成します。
次の操作 *f* が決定されると、第 2 段階では引数の生成が必要です。前述の通り、Chain-of-Table は図に示すようにプロンプト内の 3 つのコンポーネントを考慮します:(1) 質問、(2) 選択された操作とその必要な引数、(3) 最新の中間テーブル。
例えば、操作 f_group_by が選択された場合、その引数としてヘッダー名が必要です。
LLM はテーブル内から適切なヘッダーを選択します。選択された操作と生成された引数を備え、Chain-of-Table はその操作を実行し、次の推論のための新しい中間テーブルを構築します。
Chain-of-Table は前述の 2 つの段階を反復して次の操作を計画し、必要な引数を生成します。この過程で、表形式推論ステップのプロキシとして機能する操作チェーンを作成します。これらの操作は、各ステップの結果を示す中間テーブルを生成し、LLM に提示します。その結果、出力テーブルには表形式推論の中間段階に関する包括的な情報が含まれます。最終段階では、この出力テーブルを用いて最終クエリを策定し、質問とともに LLM をプロンプトして最終回答を得ます。
Experimental setup
バックボーン LLM には PaLM 2-S と GPT 3.5 を使用し、3 つの公開された表理解ベンチマークである WikiTQ、TabFact、および FeTaQA 上で実験を行いました。WikiTQ と FeTaQA は表ベースの質問応答用のデータセットです。TabFact は表ベースの事実検証ベンチマークです。本ブログ記事では、WikiTQ と TabFact における結果に焦点を当てます。Chain-of-Table を、汎用的な推論手法(例:エンドツーエンド QA、Few-Shot QA、および Chain-of-Thought)やプログラム支援型手法(例:Text-to-SQL、Binder、および Dater)と比較します。
More accurate answers
汎用的な推論手法やプログラム支援型推論手法と比較して、Chain-of-Table は PaLM 2 および GPT 3.5 の両方でより優れたパフォーマンスを達成します。これは、動的にサンプリングされた操作と情報豊富な中間テーブルによるものです。
PaLM 2 と GPT 3.5 を用いた WikiTQ および TabFact における理解結果は、各種モデルと比較されています。
Better robustness on harder questions
Chain-of-Table において、より長い操作チェーンは、質問および対応するテーブルの難易度と複雑さが高いことを示します。私たちは、Chain-of-Table におけるテストサンプルを、その操作長に基づいて分類しました。また、代表的な汎用推論手法である Chain-of-Thought と、プログラム支援型推論手法である Dater と比較を行いました。この比較は、PaLM 2 の WikiTQ における結果を用いて示しています。
操作チェーンの長さが異なる質問に対する WikiTQ 上での、Chain-of-Thought、Dater、および提案された Chain-of-Table の性能。私たちが提案する原子操作(atomic operations)は、汎用手法やプログラム支援型推論手法と比較して、性能を大幅に向上させます。
特筆すべきは、Chain-of-Table がすべての操作チェーン長において両方のベースライン手法を一貫して上回っており、Chain-of-Thought と比較して最大 11.6%、Dater と比較して最大 7.9% の大きな差を示している点です。さらに、Chain-of-Table の性能は、他のベースライン手法と比較して操作数が増加しても緩やかに低下し、操作数が 4 から 5 に増加した場合でも最小限の減少しか示しません。
より大きなテーブルにおける優れた頑健性
私たちは、WikiTQ のテーブルをトークン数に基づいて 3 つのグループに分類しました:小規模(4000 トークン未満)、中規模(4000〜20,000 トークン)、大規模(20,000 トークン以上)。その後、Chain-of-Table を、最新の 2 つかつ最も強力なベースラインである Dater と Binder と比較しました。
WikiTQ の小規模(4000 トークン)テーブルに対する Binder、Dater、および提案された Chain-of-Table の性能。入力テーブルが大きくなるにつれて性能が低下する一方で、Chain-of-Table は緩やかに低下し、競合手法に対して顕著な改善を達成することが観察されました。(前述の通り、下線付きテキストは 2 番目に良いパフォーマンスを示し、太字は最良のパフォーマンスを示します。)
WikiTQ の小規模(4000 トークン)テーブルに対する Binder、Dater、および提案された Chain-of-Table の性能。入力テーブルが大きくなるにつれて性能が低下する一方で、Chain-of-Table は緩やかに低下し、競合手法に対して顕著な改善を達成することが観察されました。(前述の通り、下線付きテキストは 2 番目に良いパフォーマンスを示し、太字は最良のパフォーマンスを示します。)
予想通り、モデルがより長いコンテキストを通じて推論を行う必要があるため、入力テーブルが大きくなるにつれて性能は低下しました。しかしながら、提案された Chain-of-Table の性能は緩やかに低下し、大規模なテーブルを扱う際にも 2 番目に良い競合手法に対して顕著に 10% 以上の改善を達成しました。これは、推論チェーンが長い表形式の入力を処理する上で有効であることを示しています。
結論
提案された Chain-of-Table 手法は、表構造を活用して中間ステップを表現することで、LLM の推論能力を向上させます。これは、入力される表とその関連する質問に応じて LLM が動的に操作チェーンを計画することを指示するものです。この進化型表の設計は、表理解のためのプロンプト設計に対する新たな洞察をもたらします。
謝辞
*本研究は、Zilong Wang, Hao Zhang, Chun-Liang Li, Julian Martin Eisenschlos, Vincent Perot, Zifeng Wang, Lesly Miculicich, Yasuhisa Fujii, Jingbo Shang, Chen-Yu Lee, Tomas Pfister によって実施されました。貴重なフィードバックを提供いただいた Chih-Kuan Yeh 氏および Sergey Ioffe 氏に感謝いたします。
原文を表示
Posted by Zilong Wang, Student Researcher, and Chen-Yu Lee, Research Scientist, Cloud AI Team

People use tables every day to organize and interpret complex information in a structured, easily accessible format. Due to the ubiquity of such tables, reasoning over tabular data has long been a central topic in natural language processing (NLP). Researchers in this field have aimed to leverage language models to help users answer questions, verify statements, and analyze data based on tables. However, language models are trained over large amounts of plain text, so the inherently structured nature of tabular data can be difficult for language models to fully comprehend and utilize.
Recently, large language models (LLMs) have achieved outstanding performance across diverse natural language understanding (NLU) tasks by generating reliable reasoning chains, as shown in works like Chain-of-Thought and Least-to-Most. However, the most suitable way for LLMs to reason over tabular data remains an open question.
In “Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding”, we propose a framework to tackle table understanding tasks, where we train LLMs to outline their reasoning step by step, updating a given table iteratively to reflect each part of a thought process, akin to how people solve the table-based problems. This enables the LLM to transform the table into simpler and more manageable segments so that it can understand and analyze each part of the table in depth. This approach has yielded significant improvements and achieved new state-of-the-art results on the WikiTQ, TabFact, and FeTaQA benchmarks. The figure below shows the high-level overview of the proposed Chain-of-Table and other methods.
Given a complex table where a cyclist’s nationality and name are in the same cell, (a) generic, multi-step reasoning is unable to provide the correct answer (b) program-aided reasoning generates and executes programs (e.g., SQL queries) to deliver the answer, but falls short in accurately addressing the question. In contrast, (c) Chain-of-Table iteratively samples a chain of operations that effectively transform the complex table into a version specifically tailored to the question.
Chain-of-Table
In Chain-of-Table, we guide LLMs using in-context learning to iteratively generate operations and to update the table to represent its reasoning chain over tabular data. This enables LLMs to dynamically plan the next operation based on the results of previous ones. This continuous evolution of the table forms a chain, which provides a more structured and clear representation of the reasoning process for a given problem and enables more accurate and reliable predictions from the LLM.
For example, when asked, “Which actor has the most NAACP image awards?” the Chain-of-Table framework prompts an LLM to generate tabular operations mirroring tabular reasoning processes. It first identifies the relevant columns. Then, it aggregates rows based on shared content. Finally, it reorders the aggregated results to yield a final table that clearly answers the posed question.
These operations transform the table to align with the question presented. To balance performance with computational expense on large tables, we construct the operation chain according to a subset of tabular rows.. Meanwhile, the step-by-step operations reveal the underlying reasoning process through the display of intermediate results from the tabular operations, fostering enhanced interpretability and understanding.
Illustration of the tabular reasoning process in Chain-of-Table. This iterative process involves dynamically planning an operation chain and accurately storing intermediate results in the transformed tables. These intermediate tables serve as a tabular thought process that can guide the LLM to land to the correct answer more reliably.
Chain-of-Table consists of three main stages. In the first stage, it instructs the LLM to dynamically plan the next operation by in-context learning. Specifically, the prompt involves three components as shown in the following figure:
- The question Q: “Which country had the most cyclists finish in the top 3?”
- The operation history chain: f_add_col(Country) and f_select_row(1, 2, 3).
- The latest intermediate table T: the transformed intermediate table.
By providing the triplet *(T, Q, chain)* in the prompt, the LLM can observe the previous tabular reasoning process and select the next operation from the operation pool to complete the reasoning chain step by step.
Illustration of how Chain-of-Table selects the next operation from the operation pool and generates the arguments for the operation.(a) Chain-of-Table samples the next operation from the operation pool. (b) It takes the selected operation as input and generates its arguments.
After the next operation *f* is determined, in the second stage, we need to generate the arguments. As above, Chain-of-Table considers three components in the prompt as shown in the figure: (1) the question, (2) the selected operation and its required arguments, and (3) the latest intermediate table.
For instance, when the operation f_group_by is selected, it requires a header name as its argument.
The LLM selects a suitable header within the table. Equipped with the selected operation and the generated arguments, Chain-of-Table executes the operation and constructs a new intermediate table for the following reasoning.
Chain-of-Table iterates the previous two stages to plan the next operation and generate the required arguments. During this process, we create an operation chain acting as a proxy for the tabular reasoning steps. These operations generate intermediate tables presenting the results of each step to the LLM. Consequently, the output table contains comprehensive information about the intermediate phases of tabular reasoning. In our final stage, we employ this output table in formulating the final query and prompt the LLM along with the question for the final answer.
Experimental setup
We use PaLM 2-S and GPT 3.5 as the backbone LLMs and conduct the experiments on three public table understanding benchmarks: WikiTQ, TabFact, and FeTaQA. WikiTQ and FeTaQA are datasets for table-based question answering. TabFact is a table-based fact verification benchmark. In this blogpost, we will focus on the results on WikiTQ and TabFact. We compare Chain-of-Table with the generic reasoning methods (e.g., End-to-End QA, Few-Shot QA, and Chain-of-Thought) and the program-aided methods (e.g., Text-to-SQL, Binder, and Dater).
More accurate answers
Compared to the generic reasoning methods and program-aided reasoning methods, Chain-of-Table achieves better performance across PaLM 2 and GPT 3.5. This is attributed to the dynamically sampled operations and the informative intermediate tables.
Understanding results on WikiTQ and TabFact with PaLM 2 and GPT 3.5 compared with various models.
Better robustness on harder questions
In Chain-of-Table, longer operation chains indicate the higher difficulty and complexity of the questions and their corresponding tables. We categorize the test samples according to their operation lengths in Chain-of-Table. We compare Chain-of-Table with Chain-of-Thought and Dater, as representative generic and program-aided reasoning methods. We illustrate this using results from PaLM 2 on WikiTQ.
Performance of Chain-of-Thought, Dater, and the proposed Chain-of-Table on WikiTQ for questions that require an operation chain of varying lengths. Our proposed atomic operations significantly improve performance over generic and program-aided reasoning counterparts.
Notably, Chain-of-Table consistently surpasses both baseline methods across all operation chain lengths, with a significant margin up to 11.6% compared with Chain-of-Thought, and up to 7.9% compared with Dater. Moreover, the performance of Chain-of-Table declines gracefully with increasing number of operations compared to other baseline methods, exhibiting only a minimal decrease when the number of operations increases from four to five.
Better robustness with larger tables
We categorize the tables from WikiTQ into three groups based on token number: small (4000 tokens). We then compare Chain-of-Table with Dater and Binder, the two latest and strongest baselines.
Performance of Binder, Dater, and the proposed Chain-of-Table on small (4000 tokens) tables from WikiTQ. We observe that the performance decreases with larger input tables while Chain-of-Table diminishes gracefully, achieving significant improvements over competing methods. (As above, underlined text denotes the second-best performance; bold denotes the best performance.)
Performance of Binder, Dater, and the proposed Chain-of-Table on small (4000 tokens) tables from WikiTQ. We observe that the performance decreases with larger input tables while Chain-of-Table diminishes gracefully, achieving significant improvements over competing methods. (As above, underlined text denotes the second-best performance; bold denotes the best performance.)
As anticipated, the performance decreases with larger input tables, as models are required to reason through longer contexts. Nevertheless, the performance of the proposed Chain-of-Table diminishes gracefully, achieving a significant 10+% improvement over the second best competing method when dealing with large tables. This demonstrates the efficacy of the reasoning chain in handling long tabular inputs.
Conclusion
Our proposed Chain-of-Table method enhances the reasoning capability of LLMs by leveraging the tabular structure to express intermediate steps for table-based reasoning. It instructs LLMs to dynamically plan an operation chain according to the input table and its associated question. This evolving table design sheds new light on the understanding of prompting LLMs for table understanding.
Acknowledgements
*This research was conducted by Zilong Wang, Hao Zhang, Chun-Liang Li, Julian Martin Eisenschlos, Vincent Perot, Zifeng Wang, Lesly Miculicich, Yasuhisa Fujii, Jingbo Shang, Chen-Yu Lee, Tomas Pfister. Thanks to Chih-Kuan Yeh and Sergey Ioffe for their valuable feedback.*
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み