TabFM이란 무엇이며 무엇에 사용됩니까?

TabFM은 Google의 표 형식 데이터용 파운데이션 모델로, 하이퍼파라미터 조정과 피처 엔지니어링 없이 입력의 컨텍스트만을 기반으로 단일 순방향 패스에서 제로샷 예측을 제공합니다.

TabFM은 어디서 이용할 수 있습니까?

모델은 Hugging Face와 GitHub에서 이용 가능하며, 분석가가 SQL 인터페이스를 벗어나지 않고 예측을 할 수 있게 하는 AI.PREDICT SQL 명령을 통한 Google BigQuery 통합이 계획되어 있습니다.

TabFM은 어떻게 훈련되었습니까?

다양한 분포, 비선형 관계 및 다양한 피처 간 의존 구조를 시뮬레이션하기 위해 구조적 인과 모델을 사용하는 수억 개의 합성 생성 데이터셋으로 훈련되었습니다.

Google TabFM: 표 형식 데이터를 위한 제로샷 모델

Google Research가 TabFM을 발표했습니다 — 하이퍼파라미터 튜닝과 피처 엔지니어링 없이 단일 순방향 패스로 제로샷 예측을 제공하는 표 형식 데이터용 파운데이션 모델. TabArena 벤치마크에서 최고의 Elo 점수를 달성했으며 Hugging Face와 GitHub에서 제공되고, Google BigQuery 통합이 발표되었습니다.

표 형식 데이터에 대한 머신러닝은 전통적으로 높은 수준의 전문성을 요구합니다: 피처 선택 및 엔지니어링, 하이퍼파라미터 튜닝, 때로는 각각의 새 데이터셋에 대한 아키텍처 재설계. Google Research는 2026년 6월 30일 TabFM을 발표했습니다 — 모든 새로운 문제에 대한 변경 없이 단일 순방향 패스로 전체 워크플로를 줄이는 파운데이션 모델.

TabFM이 해결하는 문제

표 형식 데이터를 위한 고전적 ML 워크플로는 반복적인 과정을 수반합니다: 데이터 탐색, 피처 엔지니어링, 아키텍처 선택(그래디언트 부스팅, 랜덤 포레스트, 신경망) 및 몇 시간에 걸친 하이퍼파라미터 튜닝. 모든 새 데이터셋은 이 사이클을 처음부터 다시 요구합니다. 수십 또는 수백 개의 서로 다른 표 형식 문제를 다루는 조직의 경우 이 비용이 배가됩니다.

TabFM은 전체 사이클을 건너뜁니다: 한 번 훈련된 모델이 변경 없이 새 데이터셋에 대한 예측을 제공합니다. 모델은 표를 컨텍스트로 수신하고 입력의 데이터 구조를 기반으로 직접 예측을 출력합니다 — 표 형식 예측을 인컨텍스트 학습 문제로 프레이밍합니다.

TabFM은 어떻게 작동합니까?

TabFM의 아키텍처는 순서대로 작동하는 세 가지 구성 요소를 결합합니다. 행과 열에 걸친 교차 어텐션은 원시 표 형식 구조를 처리합니다 — 모델이 레코드 간의 관계와 피처 간의 관계를 동시에 학습하여 데이터의 수평 및 수직 의존성을 모두 포착합니다.

두 번째 단계의 행 압축은 각 행에 대한 정보를 밀도 있는 표현 벡터로 변환합니다. 이 단계는 시퀀스 길이를 줄이고 데이터를 보다 효율적인 처리를 위해 준비합니다. 마지막으로, 인컨텍스트 학습을 위한 Transformer가 압축된 벡터를 기반으로 예측을 수행하며, LLM이 명시적으로 보지 못한 작업에 일반화할 수 있게 하는 동일한 원리를 적용합니다.

결과는 단일 순방향 패스에서의 예측입니다. 파인튜닝 없음, 튜닝 없음, 피처 엔지니어링 없음 — 모델은 표를 받아 예측을 반환합니다.

합성 데이터로 훈련

Google Research는 근본적인 문제에 직면했습니다: 충분한 용량의 모델을 훈련하기에 공개적으로 이용 가능한 표 형식 데이터셋이 부족합니다. 해결책은 구조적 인과 모델(SCM) — 현실적인 분포, 비선형 관계 및 다양한 의존 구조로 합성 데이터를 생성하는 수학적 프레임워크 — 이었습니다.

TabFM은 수억 개의 합성 생성 데이터셋으로 훈련되었습니다. SCM 접근 방식은 통제된 다양성을 허용합니다: 모델은 잠재적으로 보호된 실제 데이터셋에 의존하지 않고 미디어, 금융, 기술 및 비즈니스 도메인을 시뮬레이션하는 데이터를 보았습니다. 이는 또한 개인 또는 기밀 정보를 포함하는 경우가 많은 표 형식 데이터 수집의 윤리적 문제를 해결합니다.

TabArena 결과 및 이용 가능성

평가를 위해 TabArena가 사용되었습니다 — 세트당 700~150,000개의 샘플 크기로 38개 분류 및 13개 회귀 데이터셋을 포함하는 벤치마크. 크로스 피처, SVD 분해 및 출력 교정을 위한 Platt 스케일링을 사용하는 버전인 TabFM-Ensemble이 TabArena에서 최고의 Elo 점수를 달성하여 표준 기준 모델을 능가했습니다.

TabFM은 Hugging Face와 GitHub에서 이용 가능합니다. Google은 AI.PREDICT SQL 명령을 통한 Google BigQuery 통합을 발표했으며, 이를 통해 분석가들이 SQL 환경을 벗어나거나 ML 코드를 작성하지 않고 표 형식 데이터에 대한 예측을 할 수 있게 될 것입니다.

프로젝트 연구원은 Weihao Kong과 Abhimanyu Das(Google Research)이며, Erez Louidor Ilan, Tamana Narayan, Shuxin Nie, Rajat Sen, Yichen Zhou, Joe Toth, Deqing Fu 및 Samet Oymak의 협력을 받았습니다.

Google Research, TabFM 발표: 표 형식 데이터를 위한 제로샷 파운데이션 모델

TabFM이 해결하는 문제

TabFM은 어떻게 작동합니까?

합성 데이터로 훈련

TabArena 결과 및 이용 가능성

자주 묻는 질문

출처

관련 뉴스