Google Researchが TabFM を発表:表形式データ向けゼロショット基盤モデル
Google Researchは、ハイパーパラメータ調整や特徴量エンジニアリングを行わずに1回のforward passでゼロショット予測を提供する表形式データ向け基盤モデル「TabFM」を発表した。TabArenaベンチマークで最高のEloスコアを達成し、Hugging FaceとGitHubで公開、Google BigQueryへの統合も予定されている。
この記事はAIにより一次情報源から生成されました。
表形式データの機械学習は伝統的に高いレベルの専門知識を必要としてきた:特徴量の選択とエンジニアリング、ハイパーパラメータ調整、時には新しいデータセットごとにアーキテクチャを再設計することも。Google Researchは2026年6月30日にTabFMを発表した——そのワークフロー全体を、各新しい問題に対する修正なしに1回のforward passに集約した基盤モデルだ。
TabFMが解決する問題
表形式データの古典的なMLワークフローは反復プロセスを前提とする:データ探索、特徴量エンジニアリング、アーキテクチャ選択(勾配ブースティング、ランダムフォレスト、ニューラルネットワーク)、そして数時間に及ぶハイパーパラメータ調整。新しいデータセットごとにそのサイクルを最初からやり直す必要がある。数十または数百の異なる表形式問題を扱う組織では、そのコストが積み重なる。
TabFMはそのサイクル全体をスキップする:一度訓練されたモデルが、修正なしに新しいデータセットの予測を行う。モデルはテーブルをコンテキストとして受け取り、入力のデータ構造に基づいて直接予測を出力する——表形式予測をin-context learningの問題としてフレーミングする。
TabFMはどのように機能するか?
TabFMのアーキテクチャは順番に機能する三つのコンポーネントを組み合わせる。行と列をまたいだ交互アテンションが生の表形式構造を処理する——モデルはレコード間と特徴量間の関係を同時に学習し、データの水平・垂直の依存関係を両方捉える。
第2段階の行圧縮が各行の情報を密なベクトル表現に変換する。このステップはシーケンス長を削減し、より効率的な処理のためのデータを準備する。最後に、in-context learning向けTransformerが圧縮されたベクトルに基づいて予測を行い、LLMが明示的に見たことのないタスクへの汎化を可能にするのと同じ原理を適用する。
結果は1回のforward passでの予測だ。ファインチューニングなし、調整なし、特徴量エンジニアリングなし——モデルはテーブルを受け取り予測を返す。
合成データでの訓練
Google Researchは根本的な問題に直面した:十分な能力を持つモデルを訓練するために必要な量の公開表形式データセットが不足していた。解決策は**構造的因果モデル(SCM)**だった——現実的な分布、非線形関係、多様な依存構造を持つ合成データを生成する数学的フレームワークだ。
TabFMは数億の合成的に生成されたデータセットで訓練された。SCMアプローチは制御された多様性を可能にする:モデルはメディア・金融・技術・ビジネスドメインをシミュレートするデータを見ており、潜在的に保護された実際のデータセットに依存しない。これはしばしば個人情報や機密情報を含む表形式データ収集の倫理的問題も解決する。
TabArenaの結果と利用可能性
評価にはTabArena——38の分類と13の回帰データセットを含み、データセットあたり700から150,000サンプルのベンチマーク——が使用された。cross featuresとSVD分解、出力キャリブレーションのためのPlattスケーリングを使用するアンサンブル版のTabFM-EnsembleがTabArenaで最高のEloスコアを達成し、標準的なベースラインモデルを上回った。
TabFMはHugging FaceとGitHubで利用可能だ。GoogleはSQL文 AI.PREDICT を通じたBigQueryへの統合を発表しており、これにより分析者はSQL環境を離れたりMLコードを書いたりすることなく表形式データの予測を行えるようになる予定だ。
プロジェクトの研究者はWeihao KongとAbhimanyu Das(Google Research)で、Erez Louidor Ilan、Taman Narayana、Shuxin Nie、Rajat Sen、Yichen Zhou、Joe Toth、Deqing Fu、Samet Oymakとの共同研究だ。
よくある質問
- TabFMとは何で、何に使われるのか?
- TabFMはGoogleの表形式データ向け基盤モデルで、ハイパーパラメータ調整や特徴量エンジニアリングなしに、入力のコンテキストだけを基に1回のforward passでゼロショット予測を行う。
- TabFMはどこで利用できるか?
- モデルはHugging FaceとGitHubで公開されており、分析者がSQLインターフェースを離れることなく予測を行えるAI.PREDICT SQLコマンドでGoogle BigQueryに統合される予定だ。
- TabFMはどのように訓練されたか?
- さまざまな分布、非線形関係、特徴量間の多様な依存構造をシミュレートするために構造的因果モデルを使用して生成された数億の合成データセットで訓練された。