Text-to-SQL-Benchmark-Studie: 4 KB Semantic Layer fügt 17–23 Prozentpunkte Genauigkeit hinzu, Modellwahl entscheidet nicht
Ein ArXiv-Preprint von Rumiantsau und Fokeev (28. April 2026) testet drei Frontier-LLMs (Claude Opus 4.7, Sonnet 4.6, GPT-5.4) auf 100 Text-to-SQL-Fragen über den Cleaned-Contoso-Retail-Datensatz in ClickHouse. Ohne Semantic Layer erreichen die Modelle 45,5–50,5 % Genauigkeit, mit einem 4-KB-Markdown-Semantic-Dokument 67,7–68,7 % — Modelle sind statistisch ununterscheidbar innerhalb eines Tiers.
Michael Rumiantsau und Ivan Fokeev veröffentlichten am 28. April 2026 das ArXiv-Preprint Semantic Layers for Reliable LLM-Powered Data Analytics: A Paired Benchmark of Accuracy and Hallucination Across Three Frontier Models. Die Studie stellt eine einfache, aber wirkungsvolle Frage: Wie viel „kommt es auf das Modell an” im Vergleich dazu, wie viel der Kontext (Semantic Layer) bei der Text-to-SQL-Genauigkeit zählt?
Versuchsaufbau
Die Autoren testen drei Frontier-Modelle: Claude Opus 4.7, Claude Sonnet 4.6 und GPT-5.4. Der Benchmark besteht aus 100 natürlichsprachlichen Fragen, die in SQL-Abfragen über den Cleaned Contoso Retail Dataset in ClickHouse übersetzt werden. Jedes Modell durchläuft zwei Runden: einmal ohne Semantic Layer und einmal mit einem 4 KB Markdown-Dokument, das „Maßzahlen, Konventionen und Disambiguierungsregeln” für den Datensatz beschreibt.
Ergebnisse
Die Ergebnisse sind überraschend eindeutig:
- Ohne Semantic Layer: 45,5 %–50,5 % Genauigkeit bei allen drei Modellen
- Mit Semantic Layer: 67,7 %–68,7 % Genauigkeit bei allen drei Modellen
- Verbesserung: +17 bis +23 Prozentpunkte
Innerhalb jeder der beiden Konfigurationen sind Modelle statistisch ununterscheidbar. Mit anderen Worten: Opus 4.7 ist nicht signifikant besser als Sonnet 4.6 oder GPT-5.4, wenn sie denselben Kontext verwenden.
Die Hauptaussage
Zitat der Autoren: „The presence of the semantic-layer document accounts for essentially all of the significant variance; model choice within tier does not.”
Für die Enterprise-Praxis ist die Botschaft klar: Ein besseres Frontier-Modell innerhalb desselben Tiers wird keine bessere Datensatzdokumentation ersetzen. Ein 4-KB-Markdown mit Metrik-Definitionen, Namenskonventionen und Homonym-Disambiguierungsregeln liefert 17–23 Prozentpunkte — das ist bedeutsamer als jedes Modell-Upgrade innerhalb des Tiers.
Häufig gestellte Fragen
- Was ist ein Semantic Layer im Kontext von Text-to-SQL?
- Ein von Hand verfasstes Markdown-Dokument (in dieser Studie 4 KB), das „Maßzahlen, Konventionen und Disambiguierungsregeln” für den Datensatz beschreibt. Es definiert, was einzelne Spalten bedeuten, wie Metriken berechnet werden und wie Homonyme aufgelöst werden.
- Was ist die Hauptaussage der Studie?
- Das Vorhandensein des Semantic-Layer-Dokuments erklärt „praktisch die gesamte signifikante Varianz” in den Ergebnissen — die Modellwahl innerhalb desselben Tiers (Opus 4.7 vs. Sonnet 4.6 vs. GPT-5.4) liefert keinen statistisch signifikanten Unterschied.
- Worauf wurden die Modelle getestet?
- 100 Fragen über den Cleaned Contoso Retail Dataset in ClickHouse. Jedes Modell wurde mit denselben 100 Fragen in zwei Varianten getestet: ohne Semantic-Layer-Dokument und mit 4 KB Markdown-Semantic-Layer.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
DeepMind KI-Co-Clinician: In blinder Evaluierung von 98 Primärversorgungsanfragen bevorzugten Ärzte das System gegenüber führenden Tools, null kritische Fehler in 97/98 Fällen
Anthropic Claude for Creative Work: Konnektoren für Blender, 50+ Adobe-Creative-Cloud-Tools, Autodesk Fusion, Ableton, SketchUp und Splice
Google ERA: KI-System für wissenschaftliche Forschung erreicht CDC-Spitzenplatz bei Hospitalisierungsprognosen, löst ein offenes kosmologisches Problem und verfolgt CO2 im 10-Minuten-Takt