Google Research 发布 TabFM:面向表格数据的零样本基础模型
Google Research 发布 TabFM,这是一个面向表格数据的基础模型,可在单次前向传播中给出零样本预测,无需调整超参数和特征工程。该模型在 TabArena 基准测试中取得顶级 Elo 评分,已在 Hugging Face 和 GitHub 上发布,并宣布将集成至 Google BigQuery。
本文由人工智能基于一手来源生成。
表格数据上的机器学习历来需要较高的专业知识:特征选择与工程、超参数调优,有时还需要为每个新数据集重新设计架构。2026 年 6 月 30 日,Google Research 发布了 TabFM——一个将整个工作流程浓缩为单次前向传播、针对每个新问题无需任何修改的基础模型。
TabFM 解决的问题
表格数据的经典 ML 工作流是一个迭代过程:数据探索、特征工程、架构选择(梯度提升、随机森林、神经网络)以及数小时的超参数调优。每个新数据集都需要从头重复这个过程。对于处理数十乃至数百个不同表格问题的组织而言,这种成本会成倍累积。
TabFM 跳过了整个流程:一旦训练完成,模型无需任何修改即可对新数据集做出预测。模型将表格作为上下文接收,并根据输入中的数据结构直接输出预测——将表格预测定义为一个上下文学习问题。
TabFM 如何工作?
TabFM 的架构将三个顺序运行的组件结合在一起。行列交替注意力机制处理原始表格结构——模型同时学习记录之间和特征之间的关系,从而捕获数据中的横向和纵向依赖关系。
第二阶段的行压缩将每行的信息转换为密集表示向量。这一步骤缩短了序列长度并准备数据以进行更高效的处理。最后,用于上下文学习的 Transformer 基于压缩向量进行预测,应用与 LLM 相同的原理——使其能够泛化到从未明确见过的任务。
结果是单次前向传播即得到预测。无需微调,无需调整,无需特征工程——模型接收表格并返回预测。
基于合成数据的训练
Google Research 面临一个根本性问题:缺乏足够多的公开表格数据集来训练具有足够容量的模型。解决方案是结构因果模型(SCM)——生成具有真实分布、非线性关系和多样化依赖结构的合成数据的数学框架。
TabFM 在数亿个合成生成的数据集上训练。SCM 方法实现了受控的多样性:模型见过了模拟媒体、金融、技术和商业领域的数据,而无需依赖真实的、可能受保护的数据集。这也解决了收集通常包含个人或机密信息的表格数据的伦理问题。
TabArena 上的结果与可用性
评估使用了 TabArena 基准测试——涵盖 38 个分类和 13 个回归数据集,每个数据集的样本量从 700 到 150,000 不等。TabFM-Ensemble(使用交叉特征、SVD 分解和 Platt 缩放进行输出校准的版本)在 TabArena 上取得了顶级 Elo 评分,超越了标准基准模型。
TabFM 已在 Hugging Face 和 GitHub 上发布。Google 宣布将通过 SQL 命令 AI.PREDICT 集成至 Google BigQuery,使分析师无需离开 SQL 环境或编写 ML 代码即可对表格数据进行预测。
该项目的研究人员为 Weihao Kong 和 Abhimanyu Das(Google Research),以及 Erez Louidor Ilan、Taman Narayan、Shuxin Nie、Rajat Sen、Yichen Zhou、Joe Toth、Deqing Fu 和 Samet Oymak。
常见问题
- TabFM 是什么,用途是什么?
- TabFM 是 Google 面向表格数据的基础模型,仅通过输入中的上下文信息,在单次前向传播中提供零样本预测,无需调整超参数和特征工程。
- TabFM 在哪里可以访问?
- 该模型已在 Hugging Face 和 GitHub 上发布,计划通过 SQL 命令 AI.PREDICT 集成至 Google BigQuery,使分析师无需离开 SQL 环境即可进行预测。
- TabFM 是如何训练的?
- 使用结构因果模型生成的数亿个合成数据集进行训练,以模拟多样化的分布、非线性关系和各种特征依赖结构。