🟡 🤖 Modeli Objavljeno: · 3 min čitanja ·

Google Research predstavlja TabFM: zero-shot foundation model za tablične podatke

Editorial ilustracija: Google TabFM foundation model za zero-shot analizu tabelarnih podataka

Google Research objavio je TabFM, foundation model za tablične podatke koji daje zero-shot predikcije u jednom forward passu, bez podešavanja hiperparametara i feature engineeringa. Model je postigao vrhunske Elo ocjene na benchmarku TabArena i dostupan je na Hugging Faceu i GitHubu, s najavom integracije u Google BigQuery.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Strojno učenje na tabličnim podacima tradicionalno zahtijeva visoku razinu ekspertize: odabir i inženjering obilježja, podešavanje hiperparametara, ponekad i redizajn arhitekture za svaki novi skup podataka. Google Research objavio je 30. lipnja 2026. TabFM — foundation model koji taj cijeli tijek rada svodi na jedan forward pass, bez ikakvih izmjena za svaki novi problem.

Problem koji TabFM adresira

Klasični ML workflow za tablične podatke podrazumijeva iterativni proces: istraživanje podataka, feature engineering, odabir arhitekture (gradient boosting, random forests, neuronske mreže) i višesatno podešavanje hiperparametara. Svaki novi skup podataka taj ciklus zahtijeva ispočetka. Za organizacije koje rade s desetinama ili stotinama različitih tabličnih problema, taj trošak se multiplicira.

TabFM preskače cjelokupni ciklus: jednom natreniran model daje predikcije za novi skup bez ikakvih izmjena. Model prima tablicu kao kontekst i na temelju strukture podataka u ulazu direktno izlazi predikciju — framing tabularnog predviđanja kao in-context learning problema.

Kako TabFM funkcionira?

Arhitektura TabFM-a kombinira tri komponente koje rade u sekvenci. Izmjenična pažnja po recima i stupcima obrađuje sirovu tabličnu strukturu — model istovremeno uči relacije između zapisa i između obilježja, čime se bilježe i horizontalne i vertikalne ovisnosti u podacima.

Kompresija redaka u drugoj fazi pretvara informaciju o svakom retku u gust vektor reprezentacije. Ovaj korak reducira duljinu sekvence i priprema podatke za efikasniju obradu. Na kraju, Transformer za in-context learning radi predikcije na temelju komprimiranih vektora, primjenjujući isti princip koji LLM-ovima omogućuje generalizaciju na zadatke koje nikad nisu eksplicitno vidjeli.

Rezultat je predikcija u jednom forward passu. Nema fine-tuninga, nema podešavanja, nema feature engineeringa — model prima tablicu i vraća predikciju.

Treniranje na sintetičkim podacima

Google Research suočio se s fundamentalnim problemom: nedovoljno javno dostupnih tabličnih skupova podataka za treniranje modela dovoljne kapacitivnosti. Rješenje su bili strukturni kauzalni modeli (SCM) — matematički okviri koji generiraju sintetičke podatke s realnim distribucijama, nelinearnim relacijama i raznovrsnim strukturama zavisnosti.

TabFM je treniran na stotinama milijuna sintetički generiranih skupova podataka. SCM pristup omogućuje kontroliranu raznovrsnost: model je vidio podatke koji simuliraju medijske, financijske, tehničke i poslovne domene, bez oslanjanja na stvarne, potencijalno zaštićene skupove. Ovo rješava i etički problem skupljanja tabličnih podataka koji često sadrže osobne ili povjerljive informacije.

Rezultati na TabAreni i dostupnost

Za evaluaciju je korišten TabArenabenchmark koji obuhvaća 38 klasifikacijskih i 13 regresijskih skupova podataka, s veličinama od 700 do 150.000 uzoraka po skupu. TabFM-Ensemble, verzija koja koristi cross features, SVD dekompoziciju i Platt skaliranje za kalibraciju izlaza, postigao je vrhunske Elo ocjene na TabAreni, nadmašivši standardne baseline modele.

TabFM je dostupan na Hugging Face i GitHubu. Google je najavio integraciju u Google BigQuery putem SQL naredbe AI.PREDICT, što bi analitičarima trebalo omogućiti predikcije na tabličnim podacima bez napuštanja SQL okruženja ili pisanja ML koda.

Istraživači iza projekta su Weihao Kong i Abhimanyu Das (Google Research), uz suradnju Ereza Louidor Ilana, Tamana Narayana, Shuxin Niea, Rajata Sena, Yichena Zhoua, Joea Totha, Deqinga Fua i Sameta Oymaka.

Česta pitanja

Što je TabFM i čemu služi?
TabFM je Googleov foundation model za tablične podatke koji daje zero-shot predikcije u jednom forward passu, bez podešavanja hiperparametara i feature engineeringa, samo na temelju konteksta u ulazu.
Gdje je TabFM dostupan?
Model je dostupan na Hugging Faceu i GitHubu, a planirana je integracija u Google BigQuery putem SQL naredbe AI.PREDICT koja analitičarima omogućuje predikcije bez napuštanja SQL sučelja.
Kako je TabFM treniran?
Treniran je na stotinama milijuna sintetički generiranih skupova podataka koji koriste strukturne kauzalne modele za simulaciju raznovrsnih distribucija, nelinearnih relacija i raznolikih struktura zavisnosti između obilježja.