🟡 🤖 模型 发布于: · 2 分钟阅读 ·

Google Research 发布 TabFM:面向表格数据的零样本基础模型

编辑配图:Google TabFM 基础模型用于表格数据的零样本分析

Google Research 发布 TabFM,这是一个面向表格数据的基础模型,可在单次前向传播中给出零样本预测,无需调整超参数和特征工程。该模型在 TabArena 基准测试中取得顶级 Elo 评分,已在 Hugging Face 和 GitHub 上发布,并宣布将集成至 Google BigQuery。

🤖

本文由人工智能基于一手来源生成。

表格数据上的机器学习历来需要较高的专业知识:特征选择与工程、超参数调优,有时还需要为每个新数据集重新设计架构。2026 年 6 月 30 日,Google Research 发布了 TabFM——一个将整个工作流程浓缩为单次前向传播、针对每个新问题无需任何修改的基础模型

TabFM 解决的问题

表格数据的经典 ML 工作流是一个迭代过程:数据探索、特征工程、架构选择(梯度提升、随机森林、神经网络)以及数小时的超参数调优。每个新数据集都需要从头重复这个过程。对于处理数十乃至数百个不同表格问题的组织而言,这种成本会成倍累积。

TabFM 跳过了整个流程:一旦训练完成,模型无需任何修改即可对新数据集做出预测。模型将表格作为上下文接收,并根据输入中的数据结构直接输出预测——将表格预测定义为一个上下文学习问题。

TabFM 如何工作?

TabFM 的架构将三个顺序运行的组件结合在一起。行列交替注意力机制处理原始表格结构——模型同时学习记录之间和特征之间的关系,从而捕获数据中的横向和纵向依赖关系。

第二阶段的行压缩将每行的信息转换为密集表示向量。这一步骤缩短了序列长度并准备数据以进行更高效的处理。最后,用于上下文学习的 Transformer 基于压缩向量进行预测,应用与 LLM 相同的原理——使其能够泛化到从未明确见过的任务。

结果是单次前向传播即得到预测。无需微调,无需调整,无需特征工程——模型接收表格并返回预测。

基于合成数据的训练

Google Research 面临一个根本性问题:缺乏足够多的公开表格数据集来训练具有足够容量的模型。解决方案是结构因果模型(SCM)——生成具有真实分布、非线性关系和多样化依赖结构的合成数据的数学框架。

TabFM 在数亿个合成生成的数据集上训练。SCM 方法实现了受控的多样性:模型见过了模拟媒体、金融、技术和商业领域的数据,而无需依赖真实的、可能受保护的数据集。这也解决了收集通常包含个人或机密信息的表格数据的伦理问题。

TabArena 上的结果与可用性

评估使用了 TabArena 基准测试——涵盖 38 个分类13 个回归数据集,每个数据集的样本量从 700 到 150,000 不等。TabFM-Ensemble(使用交叉特征、SVD 分解和 Platt 缩放进行输出校准的版本)在 TabArena 上取得了顶级 Elo 评分,超越了标准基准模型。

TabFM 已在 Hugging FaceGitHub 上发布。Google 宣布将通过 SQL 命令 AI.PREDICT 集成至 Google BigQuery,使分析师无需离开 SQL 环境或编写 ML 代码即可对表格数据进行预测。

该项目的研究人员为 Weihao KongAbhimanyu Das(Google Research),以及 Erez Louidor Ilan、Taman Narayan、Shuxin Nie、Rajat Sen、Yichen Zhou、Joe Toth、Deqing Fu 和 Samet Oymak。

常见问题

TabFM 是什么,用途是什么?
TabFM 是 Google 面向表格数据的基础模型,仅通过输入中的上下文信息,在单次前向传播中提供零样本预测,无需调整超参数和特征工程。
TabFM 在哪里可以访问?
该模型已在 Hugging Face 和 GitHub 上发布,计划通过 SQL 命令 AI.PREDICT 集成至 Google BigQuery,使分析师无需离开 SQL 环境即可进行预测。
TabFM 是如何训练的?
使用结构因果模型生成的数亿个合成数据集进行训练,以模拟多样化的分布、非线性关系和各种特征依赖结构。