Semantic layer +17-23pp točnosti za text-to-SQL benchmark

ArXiv preprint Rumiantsau i Fokeev (28. travnja 2026.) testira tri frontier LLM-a (Claude Opus 4.7, Sonnet 4.6, GPT-5.4) na 100 text-to-SQL pitanja nad Cleaned Contoso retail datasetom u ClickHouseu. Bez semantic layera modeli postižu 45.5-50.5% točnosti, sa 4KB markdown semantic dokumentom 67.7-68.7% — modeli su statistički nerazlučivi unutar tier-a.

Michael Rumiantsau i Ivan Fokeev objavili su 28. travnja 2026. ArXiv preprint Semantic Layers for Reliable LLM-Powered Data Analytics: A Paired Benchmark of Accuracy and Hallucination Across Three Frontier Models. Studija postavlja jednostavno ali snažno pitanje: koliko model “matters” naspram koliko kontekst (semantic layer) matters za text-to-SQL točnost?

Postavka eksperimenta

Autori testiraju tri frontier modela: Claude Opus 4.7, Claude Sonnet 4.6 i GPT-5.4. Benchmark se sastoji od 100 prirodnojezičnih pitanja koja se prevode u SQL upite nad Cleaned Contoso Retail Datasetom smještenim u ClickHouseu. Svaki model trči dvije runde: jednom bez semantic layera, jednom sa 4 KB markdown dokumentom koji opisuje “mjere, konvencije i pravila razrješavanja” datasetu.

Rezultati

Rezultati su iznenađujuće čisti:

Bez semantic layera: 45.5%–50.5% točnosti kod sva tri modela
Sa semantic layerom: 67.7%–68.7% točnosti kod sva tri modela
Poboljšanje: +17 do +23 postotnih bodova

Unutar svake od dvije postavke, modeli su statistički nerazlučivi. Drugim riječima, Opus 4.7 nije značajno bolji od Sonneta 4.6 niti od GPT-5.4 ako koriste isti kontekst.

Glavna poruka

Citat autora: “The presence of the semantic-layer document accounts for essentially all of the significant variance; model choice within tier does not.”

Za enterprise praksu poruka je jasna: bolji frontier model unutar istog tier-a neće zamijeniti bolju dataset dokumentaciju. 4 KB markdown s definicijama metrika, konvencijama nazivanja i pravilima razrješavanja homonima donosi 17-23 postotnih bodova — što je značajnije od bilo kakvog model upgrade-a unutar tier-a.

Česta pitanja

Što je semantic layer u kontekstu text-to-SQL?

Hand-authored markdown dokument (u ovoj studiji 4 KB) koji opisuje 'mjere, konvencije i pravila razrješavanja' nad datasetom. Definira što znače pojedini stupci, kako se računaju metrike i kako razriješiti homonime.

Koja je glavna poruka studije?

Prisutnost semantic layer dokumenta objašnjava 'praktički svu značajnu varijancu' u rezultatima — odabir modela unutar istog tier-a (Opus 4.7 vs Sonnet 4.6 vs GPT-5.4) ne donosi statistički značajnu razliku.

Na čemu su modeli testirani?

100 pitanja nad Cleaned Contoso Retail Datasetom u ClickHouseu. Svaki model je testiran s istih 100 pitanja u dvije varijante: bez semantic layer dokumenta i sa 4 KB markdown semantic layerom.

Studija text-to-SQL benchmarka: 4KB semantic layer dodaje 17-23 postotnih bodova točnosti, model choice ne odlučuje

Postavka eksperimenta

Rezultati

Glavna poruka

Česta pitanja

Izvori

Povezane vijesti