TabFM 是什么，用途是什么？

TabFM 是 Google 面向表格数据的基础模型，仅通过输入中的上下文信息，在单次前向传播中提供零样本预测，无需调整超参数和特征工程。

TabFM 在哪里可以访问？

该模型已在 Hugging Face 和 GitHub 上发布，计划通过 SQL 命令 AI.PREDICT 集成至 Google BigQuery，使分析师无需离开 SQL 环境即可进行预测。

TabFM 是如何训练的？

使用结构因果模型生成的数亿个合成数据集进行训练，以模拟多样化的分布、非线性关系和各种特征依赖结构。

Google TabFM：面向表格数据的零样本模型

Google Research 发布 TabFM，这是一个面向表格数据的基础模型，可在单次前向传播中给出零样本预测，无需调整超参数和特征工程。该模型在 TabArena 基准测试中取得顶级 Elo 评分，已在 Hugging Face 和 GitHub 上发布，并宣布将集成至 Google BigQuery。

表格数据上的机器学习历来需要较高的专业知识：特征选择与工程、超参数调优，有时还需要为每个新数据集重新设计架构。2026 年 6 月 30 日，Google Research 发布了 TabFM——一个将整个工作流程浓缩为单次前向传播、针对每个新问题无需任何修改的基础模型。

TabFM 解决的问题

表格数据的经典 ML 工作流是一个迭代过程：数据探索、特征工程、架构选择（梯度提升、随机森林、神经网络）以及数小时的超参数调优。每个新数据集都需要从头重复这个过程。对于处理数十乃至数百个不同表格问题的组织而言，这种成本会成倍累积。

TabFM 跳过了整个流程：一旦训练完成，模型无需任何修改即可对新数据集做出预测。模型将表格作为上下文接收，并根据输入中的数据结构直接输出预测——将表格预测定义为一个上下文学习问题。

TabFM 如何工作？

TabFM 的架构将三个顺序运行的组件结合在一起。行列交替注意力机制处理原始表格结构——模型同时学习记录之间和特征之间的关系，从而捕获数据中的横向和纵向依赖关系。

第二阶段的行压缩将每行的信息转换为密集表示向量。这一步骤缩短了序列长度并准备数据以进行更高效的处理。最后，用于上下文学习的 Transformer 基于压缩向量进行预测，应用与 LLM 相同的原理——使其能够泛化到从未明确见过的任务。

结果是单次前向传播即得到预测。无需微调，无需调整，无需特征工程——模型接收表格并返回预测。

基于合成数据的训练

Google Research 面临一个根本性问题：缺乏足够多的公开表格数据集来训练具有足够容量的模型。解决方案是结构因果模型（SCM）——生成具有真实分布、非线性关系和多样化依赖结构的合成数据的数学框架。

TabFM 在数亿个合成生成的数据集上训练。SCM 方法实现了受控的多样性：模型见过了模拟媒体、金融、技术和商业领域的数据，而无需依赖真实的、可能受保护的数据集。这也解决了收集通常包含个人或机密信息的表格数据的伦理问题。

TabArena 上的结果与可用性

评估使用了 TabArena 基准测试——涵盖 38 个分类和 13 个回归数据集，每个数据集的样本量从 700 到 150,000 不等。TabFM-Ensemble（使用交叉特征、SVD 分解和 Platt 缩放进行输出校准的版本）在 TabArena 上取得了顶级 Elo 评分，超越了标准基准模型。

TabFM 已在 Hugging Face 和 GitHub 上发布。Google 宣布将通过 SQL 命令 AI.PREDICT 集成至 Google BigQuery，使分析师无需离开 SQL 环境或编写 ML 代码即可对表格数据进行预测。

该项目的研究人员为 Weihao Kong 和 Abhimanyu Das（Google Research），以及 Erez Louidor Ilan、Taman Narayan、Shuxin Nie、Rajat Sen、Yichen Zhou、Joe Toth、Deqing Fu 和 Samet Oymak。

Google Research 发布 TabFM：面向表格数据的零样本基础模型

TabFM 解决的问题

TabFM 如何工作？

基于合成数据的训练

TabArena 上的结果与可用性

常见问题

来源

相关新闻