Google AI、ゼロショット分類・回帰用のハイブリッドアテンション型表計算基盤モデル「TabFM」を発表
Google Research が発表した TabFM は、ゼロショット学習とハイブリッド注意機構により、データの前処理や微調整なしで表計算データの分類・回帰を可能にする画期的な基盤モデルである。
キーポイント
ゼロショット学習の実現
新たなデータセットに対するトレーニングやハイパーパラメータ調整を不要とし、単一のフォワードパスで予測を行うことで、従来の XGBoost 等のワークフローにおける時間的ボトルネックを解消する。
ハイブリッド注意機構の採用
TabPFN の行・列交替アテンションと TabICL のコンテキスト学習を組み合わせた独自アーキテクチャにより、表データの順序不変性を維持しつつ特徴間の複雑な相互作用を捉える。
大規模合成データによる訓練
構造的因果モデルから生成された数億件の合成データセットを用いてトレーニングされ、未知のテーブル構造に対する汎化能力を高めることを目指している。
BigQuery への統合予定
Google BigQuery の AI.PREDICT SQL コマンドを通じて提供される予定であり、データサイエンティストがコードを書かずに直接分析に活用できる環境が整備されつつある。
合成データによる大規模事前学習
高品質な公開テーブルデータが不足しているため、構造因果モデル(SCM)を用いて数億件の合成データを生成し、リアルな特徴関係や分布を捉えて事前学習を行っています。
ハイブリッド・アテンションとゼロショット性能
圧縮された埋め込みベクトルに対して専用トランスフォーマーが動作する「in-context learning」により、チューニング不要で単一の順方向パスで高精度な予測を可能にしています。
TabArena ベンチマークでの優位性
38 の分類および 13 の回帰データセットを含む TabArena で評価された結果、多くのハイパーパラメータ調整が必要な従来の GBDT(XGBoost)などの業界標準アルゴリズムを一貫して上回る性能を示しました。
影響分析・編集コメントを表示
影響分析
この発表は、長年決定木ベースの手法が支配してきた表計算データ分析の領域に、Transformer ベースの基盤モデルというパラダイムシフトをもたらすものである。特に、専門的なデータ前処理スキルを必要とせずとも高精度な予測が可能になる点は、企業における AI 民主化(AI Democratization)を加速させる重要な一歩となる。
編集コメント
従来の機械学習パイプラインを根本から再定義する可能性を秘めた、非常に注目度の高い技術発表です。データサイエンティストの業務負荷軽減と分析スピードの劇的向上が期待されます。
Google Research は、表形式データ向けに構築されたファウンデーションモデルである TabFM を発表しました。TabFM は、データセット固有のトレーニングを行うことなく分類と回帰を実行します。すべての予測は単一の順方向パスから得られます。このモデルは、表形式の予測をコンテキスト内学習の問題として再定義しています。現在、Hugging Face と GitHub で利用可能です。
TL;DR
TabFM は、トレーニングやチューニング、特徴量エンジニアリングを行わずに、未見の表に対して予測を行います。
完全なデータセットを1 つのプロンプトとして読み込み、コンテキスト内学習を通じて予測を実行します。
アーキテクチャは、TabPFN スタイルの行/列アテンションと TabICL スタイルのコンテキスト内学習を組み合わせたものです。
トレーニングには、構造的因果モデルから生成された数億件の合成データセットが使用されました。
Google BigQuery はまもなく AI.PREDICT SQL コマンドを通じて TabFM を公開する予定です。
TabFM とは何か?
表形式データは、エンタープライズデータインフラストラクチャの基盤を形成しています。顧客の離脱や金融詐欺検出などのタスクは、表形式で処理されます。長年、この分野では木ベースの手法が支配的でした。XGBoost、AdaBoost、ランダムフォレストは、構造化データに対して堅牢な結果を提供してきました。Google は TabFM を、ゼロショット時系列モデルである TimesFM の表形式 counterpart として位置付けています。
その信頼性には代償がありました。XGBoost を新しいデータセットに適合させることは、単なる .fit() コール1 つでは実現できません。データサイエンティストは、生データから信頼できるシグナルを抽出するために、ハイパーパラメータの最適化や特徴量エンジニアリングに数時間を費やします。TabFM はまさにこのボトルネックを対象としています。
TabFM は、大規模言語モデル(LLM)が一般化したゼロショットのロジックを適用します。LLM は重みを更新することなく、コンテキスト内の例から新しいタスクを学習します。この手法はインコンテキスト・ラーニング(ICL: in-context learning)と呼ばれます。TabFM は同じ考え方を表データに持ち込みます。これは、一度のパスで以前に見たことのない表に対して予測を生成します。
仕組みについて
従来のモデルは、各データセットの分布に合わせてパラメータを更新します。TabFM はそのステップを完全に省略します。それは、データセット全体を単一の統合されたプロンプトとして扱います。このプロンプトには、トレーニング例とターゲットとなるテスト行の両方が含まれています。モデルは推論時に列と行の関係を読み取ります。
表はテキストではありません。表は二次元であり、本質的に順序を持ちません。2 つの行や 2 つの列を入れ替えても意味は変わりません。標準的な言語モデルは、代わりに一次元で順序付けられたシーケンスを処理します。このギャップを埋めるために、TabFM は TabPFN と TabICL を組み合わせたハイブリッド設計に統合しています。
それは 3 つのメカニズムに依存しています:
行と列のアテンションを交互に使用:生データ表は多層アテンションモジュールを通過します。TabPFN に従い、アテンションは列(特徴量)と行(例)の間で交互に行われます。この深い文脈化により、特徴量の相互作用や依存関係を捉えることができます。これは、本来であれば手動での特徴量設計が必要となる作業を代替するものです。
行圧縮:各行のクロスアテンションされた情報は、単一の密なベクトルに圧縮されます。
コンテキスト学習:専用の Transformer がこれらの圧縮埋め込みを処理します。TabICL に従い、圧縮された行に注意を向けることで計算コストが劇的に削減されます。予測は、はるかに大規模なデータセット上でも効率的に維持されます。
スケールした合成データでのトレーニング
ファウンデーションモデルには膨大で多様なデータが必要です。オープンソース空間では高品質な表形式データが不足しています。産業用テーブルには独自のスキーマと機密情報が含まれており、広範な事前学習にはアクセスできません。
合成テーブルは任意のサイズに生成可能です。Google の研究チームは、この規模においてこれが事実上唯一の実用的な選択肢であると述べています。そのため TabFM は、数億件の合成データセット上で完全にトレーニングされます。これらは構造的因果モデル(SCMs: Structural Causal Models)を使用して動的に生成され、それぞれが多種多様なランダム関数を組み込んでいます。このアプローチは、実世界のテーブルに見られる分布や複雑な特徴間の関係を捉えます。研究チームは、このモデルが見たことのない実世界データにもよく一般化すると報告しています。
パフォーマンスとベンチマーク
研究チームは TabArena 上で TabFM を評価しました。TabArena は、対戦勝率から Elo スコアを計算する生きているベンチマークです。評価には 38 の分類用データセットと 13 の回帰用データセットが含まれます。サンプルサイズは 700 から 150,000 の範囲に及びます。
2 つの構成がテストされました。Plain TabFM は、単一の順方向パスですぐに動作します。チューニングや交差検証は不要です。TabFM-Ensemble は、クロス特徴量と SVD(特異値分解)特徴量を追加し、非負最小二乗ソルバーを使用して 32 個のアンサンブルに対する最適重みを計算します。分類においては、キャリブレーションステップとして Platt スケーリングも追加されます。
研究チームは、TabFM が徹底的にチューニングされた業界標準の教師ありアルゴリズムを一貫して上回ると報告しています。各フォールドごとの詳細な指標と直接比較での勝率は GitHub ページに掲載されています。
Aspect Traditional GBDT (XGBoost) TabFM TabFM-Ensemble
Per-dataset training Required None (in-context learning) None
Hyperparameter tuning Extensive, manual None Ensemble weights via NNLS
Feature engineering Manual, domain-specific Learned by attention Adds cross + SVD features
Prediction After full training Single forward pass 32-way ensemble
Calibration Manual (optional) — Platt scaling (classification)
Getting Started: Installation and Code
インストールはリポジトリをクローンしてローカルにインストールするものです。基本インストールでは CPU のみの JAX が使用されます。cuda エクストラを使用すると、CUDA 12 プラグインと GPU 実行用の NVIDIA ライブラリが取得されます。
コア要件は特定のものです。Python 3.11 以降が必要です。jax==0.10.1 と flax==0.12.7 が固定され、最新の flax.nnx API が使用されます。Hugging Face Hub により事前学習済み重みが自動的にダウンロードされます。
Copy CodeCopiedUse a different Browser
import numpy as np
import pandas as pd
from tabfm import tabfm_v1_0_0
from tabfm import TabFMClassifier
事前学習済み TabFM v1.0.0 を読み込み(Hugging Face からダウンロード)
model = tabfm_v1_0_0.load()
scikit-learn と互換性のある分類器
clf = TabFMClassifier(model=model)
X_train = pd.DataFrame({
"age": [25.0, 45.0, 35.0, 50.0],
"job": ["engineer", "manager", "engineer", "manager"],
"income": [80000, 120000, 90000, 130000]
})
y_train = np.array(["low_risk", "high_risk", "low_risk", "high_risk"])
X_test = pd.DataFrame({
"age": [30.0, 48.0],
"job": ["engineer", "manager"],
"income": [85000, 125000]
})
clf.fit(X_train, y_train)
predictions = clf.predict(X_test)
probabilities = clf.predict_proba(X_test)
print("Predictions:", predictions)
print("Class Probabilities:\n", probabilities)
Here fit() prepares ordinal encoders and numerical scalers. It does not train model weights on your data. The regressor mirrors this pattern with TabFMRegressor and reg.predict().
Use Cases With Examples
The API fits common predictive tasks directly. For customer churn, the context holds past customers labeled churned or retained. TabFM scores churn risk for new customers in one pass.
For credit risk, rows carry age, job, and income features. Labels mark low_risk or high_risk, as in the sample code. New applicants get scored without a training cycle.
回帰タスクにおいては、住宅価格の予測が自然な適用例となります。コンテキスト行には床面積や近隣地域の情報が含まれており、TabFM は未見の物件リストに対して予測された価格を返します。
インタラクティブ・エクスペラ
(function(){
var f = document.getElementById("tabfm-playground");
window.addEventListener("message", function(e){
if(e && e.data && typeof e.data.tabfmHeight === "number"){
f.style.height = (e.data.tabfmHeight + 40) + "px";
}
});
})();
リポジトリと技術詳細をチェックしてください。また、Twitter でフォローすることもできますし、15 万人以上の ML サブレッドに参加したり、ニュースレターを購読したりすることを忘れないでください。待ってください!Telegram をご利用ですか?今なら Telegram でも私たちに参加できます。
GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションのためにパートナーシップをご検討の場合は、ぜひご連絡ください。
本記事「Google AI が TabFM を発表:ゼロショット分類と回帰のためのハイブリッド・アテンション型表計算ファウンデーションモデル」は、MarkTechPost で最初に公開されました。
原文を表示
Google Research introduced TabFM, a foundation model built for tabular data. TabFM performs classification and regression without dataset-specific training. Every prediction comes from a single forward pass. The model reframes tabular prediction as an in-context learning problem. It is available now on Hugging Face and GitHub.
TL;DR
TabFM predicts on unseen tables with no training, tuning, or feature engineering.
It reads the full dataset as one prompt, then predicts via in-context learning.
The architecture combines TabPFN-style row/column attention with TabICL-style in-context learning.
Training used hundreds of millions of synthetic datasets from structural causal models.
Google BigQuery will expose TabFM through an AI.PREDICT SQL command soon.
What is TabFM?
Tabular data forms the backbone of enterprise data infrastructure. Tasks like customer churn and financial fraud detection live in tables. For years, tree-based methods dominated this space. XGBoost, AdaBoost, and random forests offered robust results on structured data. Google frames TabFM as the tabular counterpart to TimesFM, its zero-shot time-series model.
That reliability carried a cost. Fitting XGBoost to a new dataset is rarely one .fit() call. Data scientists spend hours on hyperparameter optimization and feature engineering. They do this just to extract a reliable signal from raw data. TabFM targets exactly that bottleneck.
TabFM applies the zero-shot logic that large language models made familiar. LLMs learn new tasks from in-context examples, without updating any weights. This technique is called in-context learning (ICL). TabFM brings the same idea to tables. It generates predictions on previously unseen tables in one pass.
How It Works
Traditional models update parameters for each dataset’s distribution. TabFM skips that step entirely. It takes the whole dataset as a single unified prompt. That prompt holds both training examples and target testing rows. The model reads column and row relationships at inference time.
Tables are not text. They are two-dimensional and inherently orderless. Swapping two rows or two columns does not change their meaning. Standard language models process one-dimensional, ordered sequences instead. To bridge that gap, TabFM synthesizes TabPFN and TabICL into a hybrid design.
It relies on three mechanisms:
Alternating row and column attention: The raw table passes through a multilayer attention module. Following TabPFN, attention alternates across columns (features) and rows (examples). This deep contextualization captures feature interactions and dependencies. It performs work that would otherwise need manual feature crafting.
Row compression: Each row’s cross-attended information compresses into a single dense vector.
In-context learning: A dedicated Transformer runs over these compressed embeddings. Following TabICL, attending to compressed rows cuts computation cost sharply. Prediction stays efficient even on much larger datasets.
Training On Synthetic Data at Scale
Foundation models need vast, diverse data. High-quality tabular datasets are scarce in the open-source space. Industrial tables carry proprietary schemas and sensitive information. That makes them inaccessible for broad pre-training.
Synthetic tables can be generated to be arbitrarily large. Google’s research team calls them effectively the only viable option at this scale. So TabFM trains entirely on hundreds of millions of synthetic datasets. These are generated dynamically using structural causal models (SCMs). Each incorporates a wide variety of random functions. The approach captures distributions and complex feature relationships found in real tables. The research team reports the model generalizes well to unseen real-world data.
Performance and Benchmarking
The research team evaluated TabFM on TabArena. TabArena is a living benchmark that computes Elo scores from head-to-head win rates. The evaluation spans 38 classification datasets and 13 regression datasets. Sample sizes range from 700 to 150,000.
Two configurations were tested. Plain TabFM runs out-of-the-box in a single forward pass. It needs no tuning or cross-validation. TabFM-Ensemble adds cross features and SVD (Singular Value Decomposition) features. It computes optimal weights for a 32-way ensemble using a non-negative least squares solver. For classification, it also adds Platt scaling as a calibration step.
The research team reports TabFM consistently outperforms heavily tuned, industry-standard supervised algorithms. Full per-fold metrics and head-to-head win rates sit on the GitHub page.
AspectTraditional GBDT (XGBoost)TabFMTabFM-Ensemble
Per-dataset trainingRequiredNone (in-context learning)None
Hyperparameter tuningExtensive, manualNoneEnsemble weights via NNLS
Feature engineeringManual, domain-specificLearned by attentionAdds cross + SVD features
PredictionAfter full trainingSingle forward pass32-way ensemble
CalibrationManual (optional)—Platt scaling (classification)
Getting Started: Installation and Code
Installation clones the repository and installs it locally. The base install uses CPU-only JAX. A cuda extra pulls the CUDA 12 plugin and NVIDIA libraries for GPU runs.
Core requirements are specific. You need Python 3.11 or later. It pins jax==0.10.1 and flax==0.12.7, using the modern flax.nnx API. Hugging Face Hub downloads the pre-trained weights automatically.
Copy CodeCopiedUse a different Browser
import numpy as np
import pandas as pd
from tabfm import tabfm_v1_0_0
from tabfm import TabFMClassifier
Load pre-trained TabFM v1.0.0 (downloads from Hugging Face)
model = tabfm_v1_0_0.load()
scikit-learn compatible classifier
clf = TabFMClassifier(model=model)
X_train = pd.DataFrame({
"age": [25.0, 45.0, 35.0, 50.0],
"job": ["engineer", "manager", "engineer", "manager"],
"income": [80000, 120000, 90000, 130000]
})
y_train = np.array(["low_risk", "high_risk", "low_risk", "high_risk"])
X_test = pd.DataFrame({
"age": [30.0, 48.0],
"job": ["engineer", "manager"],
"income": [85000, 125000]
})
clf.fit(X_train, y_train)
predictions = clf.predict(X_test)
probabilities = clf.predict_proba(X_test)
print("Predictions:", predictions)
print("Class Probabilities:\n", probabilities)
Here fit() prepares ordinal encoders and numerical scalers. It does not train model weights on your data. The regressor mirrors this pattern with TabFMRegressor and reg.predict().
Use Cases With Examples
The API fits common predictive tasks directly. For customer churn, the context holds past customers labeled churned or retained. TabFM scores churn risk for new customers in one pass.
For credit risk, rows carry age, job, and income features. Labels mark low_risk or high_risk, as in the sample code. New applicants get scored without a training cycle.
For regression, house price prediction is a natural fit. Context rows carry square footage and neighborhood. TabFM returns a predicted price for unseen listings.
Interactive Explainer
(function(){
var f = document.getElementById("tabfm-playground");
window.addEventListener("message", function(e){
if(e && e.data && typeof e.data.tabfmHeight === "number"){
f.style.height = (e.data.tabfmHeight + 40) + "px";
}
});
})();
Check out the Repo and Technical details. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.
Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us
The post Google AI Introduces TabFM: A Hybrid-Attention Tabular Foundation Model for Zero-Shot Classification and Regression appeared first on MarkTechPost.
関連記事
WebBrain の紹介:Chrome と Firefox で動作するオープンソースのローカルファースト AI ブラウザエージェント
Interfaze が拡散型 ASR モデル「diffusion-gemma-asr-small」を公開、6 か国語の並列ノイズ除去デコーダーで音声認識を実現
RAG-Anything チュートリアル:Colab でテキスト、表、数式、画像を扱うマルチモーダル検索パイプラインの構築方法
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み