Wo ist TabFM verfügbar?

Das Modell ist auf Hugging Face und GitHub verfügbar, und eine Integration in Google BigQuery über den SQL-Befehl AI.PREDICT ist geplant, die Analysten Vorhersagen ermöglicht, ohne die SQL-Oberfläche zu verlassen.

Wie wurde TabFM trainiert?

Es wurde auf Hunderten von Millionen synthetisch generierter Datensätze trainiert, die strukturelle kausale Modelle zur Simulation vielfältiger Verteilungen, nichtlinearer Beziehungen und verschiedener Abhängigkeitsstrukturen zwischen Merkmalen verwenden.

Google TabFM: Zero-Shot-Modell für tabellarische Daten

Q: Was ist TabFM und wozu dient es?

TabFM ist Googles Foundation-Modell für tabellarische Daten, das Zero-Shot-Vorhersagen in einem einzigen Forward-Pass liefert, ohne Hyperparameter-Tuning und Feature-Engineering, nur auf Basis des Kontexts in der Eingabe.

Google Research hat TabFM veröffentlicht, ein Foundation-Modell für tabellarische Daten, das Zero-Shot-Vorhersagen in einem einzigen Forward-Pass liefert, ohne Hyperparameter-Tuning und Feature-Engineering. Das Modell erzielte Spitzen-Elo-Wertungen auf dem TabArena-Benchmark und ist auf Hugging Face und GitHub verfügbar, mit angekündigter Integration in Google BigQuery.

Maschinelles Lernen auf tabellarischen Daten erfordert traditionell ein hohes Maß an Expertise: Auswahl und Engineering von Merkmalen, Hyperparameter-Tuning, manchmal sogar ein Redesign der Architektur für jeden neuen Datensatz. Google Research hat am 30. Juni 2026 TabFM vorgestellt — ein Foundation-Modell, das diesen gesamten Workflow auf einen einzigen Forward-Pass reduziert, ohne Anpassungen für jedes neue Problem.

Das Problem, das TabFM adressiert

Der klassische ML-Workflow für tabellarische Daten beinhaltet einen iterativen Prozess: Datenexploration, Feature-Engineering, Architekturauswahl (Gradient Boosting, Random Forests, neuronale Netze) und stundenlange Hyperparameter-Optimierung. Jeder neue Datensatz erfordert diesen Zyklus von vorne. Für Organisationen, die mit Dutzenden oder Hunderten verschiedener tabellarischer Probleme arbeiten, multipliziert sich dieser Aufwand.

TabFM überspringt den gesamten Zyklus: Ein einmal trainiertes Modell liefert Vorhersagen für neue Datensätze ohne jegliche Anpassungen. Das Modell empfängt eine Tabelle als Kontext und gibt auf Basis der Datenstruktur in der Eingabe direkt eine Vorhersage aus — tabellarische Vorhersage wird als In-Context-Learning-Problem gerahmt.

Wie funktioniert TabFM?

Die Architektur von TabFM kombiniert drei Komponenten, die sequenziell arbeiten. Abwechselnde zeilen- und spaltenweise Aufmerksamkeit verarbeitet die rohe Tabellenstruktur — das Modell lernt gleichzeitig Beziehungen zwischen Einträgen und zwischen Merkmalen und erfasst so sowohl horizontale als auch vertikale Abhängigkeiten in den Daten.

Die Zeilenkomprimierung in der zweiten Phase wandelt die Information über jede Zeile in einen dichten Repräsentationsvektor um. Dieser Schritt reduziert die Sequenzlänge und bereitet die Daten für eine effizientere Verarbeitung vor. Schließlich macht ein Transformer für In-Context-Learning Vorhersagen auf Basis komprimierter Vektoren und wendet dabei dasselbe Prinzip an, das LLMs die Generalisierung auf Aufgaben ermöglicht, die sie nie explizit gesehen haben.

Das Ergebnis ist eine Vorhersage in einem einzigen Forward-Pass. Kein Fine-Tuning, kein Tuning, kein Feature-Engineering — das Modell empfängt eine Tabelle und gibt eine Vorhersage zurück.

Training auf synthetischen Daten

Google Research stand vor einem grundlegenden Problem: Es gibt nicht genügend öffentlich verfügbare tabellarische Datensätze, um ein Modell ausreichender Kapazität zu trainieren. Die Lösung waren strukturelle kausale Modelle (SCM) — mathematische Frameworks, die synthetische Daten mit realistischen Verteilungen, nichtlinearen Beziehungen und verschiedenen Abhängigkeitsstrukturen generieren.

TabFM wurde auf Hunderten von Millionen synthetisch generierter Datensätze trainiert. Der SCM-Ansatz ermöglicht kontrollierte Vielfalt: Das Modell sah Daten, die Medien-, Finanz-, Technik- und Geschäftsdomänen simulieren, ohne sich auf echte, möglicherweise geschützte Datensätze zu verlassen. Dies löst auch das ethische Problem der Sammlung tabellarischer Daten, die häufig persönliche oder vertrauliche Informationen enthalten.

Ergebnisse auf TabArena und Verfügbarkeit

Für die Evaluation wurde TabArena verwendet — ein Benchmark, der 38 Klassifizierungs- und 13 Regressionsdatensätze mit Größen von 700 bis 150.000 Stichproben pro Datensatz umfasst. TabFM-Ensemble, eine Version, die Cross-Features, SVD-Zerlegung und Platt-Skalierung zur Ausgabekalibrierung verwendet, erzielte auf TabArena Spitzen-Elo-Wertungen und übertraf Standard-Baseline-Modelle.

TabFM ist auf Hugging Face und GitHub verfügbar. Google hat eine Integration in Google BigQuery über den SQL-Befehl AI.PREDICT angekündigt, die Analysten Vorhersagen auf tabellarischen Daten ermöglichen soll, ohne die SQL-Umgebung zu verlassen oder ML-Code zu schreiben.

Die Forscher hinter dem Projekt sind Weihao Kong und Abhimanyu Das (Google Research), in Zusammenarbeit mit Erez Louidor Ilan, Taman Narayan, Shuxin Nie, Rajat Sen, Yichen Zhou, Joe Toth, Deqing Fu und Samet Oymak.

Google Research stellt TabFM vor: Zero-Shot-Foundation-Modell für tabellarische Daten

Das Problem, das TabFM adressiert

Wie funktioniert TabFM?

Training auf synthetischen Daten

Ergebnisse auf TabArena und Verfügbarkeit

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten