Semantic Layer +17–23 PP Genauigkeit für Text-to-SQL-Benchmark

Ein ArXiv-Preprint von Rumiantsau und Fokeev (28. April 2026) testet drei Frontier-LLMs (Claude Opus 4.7, Sonnet 4.6, GPT-5.4) auf 100 Text-to-SQL-Fragen über den Cleaned-Contoso-Retail-Datensatz in ClickHouse. Ohne Semantic Layer erreichen die Modelle 45,5–50,5 % Genauigkeit, mit einem 4-KB-Markdown-Semantic-Dokument 67,7–68,7 % — Modelle sind statistisch ununterscheidbar innerhalb eines Tiers.

Michael Rumiantsau und Ivan Fokeev veröffentlichten am 28. April 2026 das ArXiv-Preprint Semantic Layers for Reliable LLM-Powered Data Analytics: A Paired Benchmark of Accuracy and Hallucination Across Three Frontier Models. Die Studie stellt eine einfache, aber wirkungsvolle Frage: Wie viel „kommt es auf das Modell an” im Vergleich dazu, wie viel der Kontext (Semantic Layer) bei der Text-to-SQL-Genauigkeit zählt?

Versuchsaufbau

Die Autoren testen drei Frontier-Modelle: Claude Opus 4.7, Claude Sonnet 4.6 und GPT-5.4. Der Benchmark besteht aus 100 natürlichsprachlichen Fragen, die in SQL-Abfragen über den Cleaned Contoso Retail Dataset in ClickHouse übersetzt werden. Jedes Modell durchläuft zwei Runden: einmal ohne Semantic Layer und einmal mit einem 4 KB Markdown-Dokument, das „Maßzahlen, Konventionen und Disambiguierungsregeln” für den Datensatz beschreibt.

Ergebnisse

Die Ergebnisse sind überraschend eindeutig:

Ohne Semantic Layer: 45,5 %–50,5 % Genauigkeit bei allen drei Modellen
Mit Semantic Layer: 67,7 %–68,7 % Genauigkeit bei allen drei Modellen
Verbesserung: +17 bis +23 Prozentpunkte

Innerhalb jeder der beiden Konfigurationen sind Modelle statistisch ununterscheidbar. Mit anderen Worten: Opus 4.7 ist nicht signifikant besser als Sonnet 4.6 oder GPT-5.4, wenn sie denselben Kontext verwenden.

Die Hauptaussage

Zitat der Autoren: „The presence of the semantic-layer document accounts for essentially all of the significant variance; model choice within tier does not.”

Für die Enterprise-Praxis ist die Botschaft klar: Ein besseres Frontier-Modell innerhalb desselben Tiers wird keine bessere Datensatzdokumentation ersetzen. Ein 4-KB-Markdown mit Metrik-Definitionen, Namenskonventionen und Homonym-Disambiguierungsregeln liefert 17–23 Prozentpunkte — das ist bedeutsamer als jedes Modell-Upgrade innerhalb des Tiers.

Häufig gestellte Fragen

Was ist ein Semantic Layer im Kontext von Text-to-SQL?

Ein von Hand verfasstes Markdown-Dokument (in dieser Studie 4 KB), das „Maßzahlen, Konventionen und Disambiguierungsregeln” für den Datensatz beschreibt. Es definiert, was einzelne Spalten bedeuten, wie Metriken berechnet werden und wie Homonyme aufgelöst werden.

Was ist die Hauptaussage der Studie?

Das Vorhandensein des Semantic-Layer-Dokuments erklärt „praktisch die gesamte signifikante Varianz” in den Ergebnissen — die Modellwahl innerhalb desselben Tiers (Opus 4.7 vs. Sonnet 4.6 vs. GPT-5.4) liefert keinen statistisch signifikanten Unterschied.

Worauf wurden die Modelle getestet?

100 Fragen über den Cleaned Contoso Retail Dataset in ClickHouse. Jedes Modell wurde mit denselben 100 Fragen in zwei Varianten getestet: ohne Semantic-Layer-Dokument und mit 4 KB Markdown-Semantic-Layer.

Text-to-SQL-Benchmark-Studie: 4 KB Semantic Layer fügt 17–23 Prozentpunkte Genauigkeit hinzu, Modellwahl entscheidet nicht

Versuchsaufbau

Ergebnisse

Die Hauptaussage

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten