Studija text-to-SQL benchmarka: 4KB semantic layer dodaje 17-23 postotnih bodova točnosti, model choice ne odlučuje
ArXiv preprint Rumiantsau i Fokeev (28. travnja 2026.) testira tri frontier LLM-a (Claude Opus 4.7, Sonnet 4.6, GPT-5.4) na 100 text-to-SQL pitanja nad Cleaned Contoso retail datasetom u ClickHouseu. Bez semantic layera modeli postižu 45.5-50.5% točnosti, sa 4KB markdown semantic dokumentom 67.7-68.7% — modeli su statistički nerazlučivi unutar tier-a.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Michael Rumiantsau i Ivan Fokeev objavili su 28. travnja 2026. ArXiv preprint Semantic Layers for Reliable LLM-Powered Data Analytics: A Paired Benchmark of Accuracy and Hallucination Across Three Frontier Models. Studija postavlja jednostavno ali snažno pitanje: koliko model “matters” naspram koliko kontekst (semantic layer) matters za text-to-SQL točnost?
Postavka eksperimenta
Autori testiraju tri frontier modela: Claude Opus 4.7, Claude Sonnet 4.6 i GPT-5.4. Benchmark se sastoji od 100 prirodnojezičnih pitanja koja se prevode u SQL upite nad Cleaned Contoso Retail Datasetom smještenim u ClickHouseu. Svaki model trči dvije runde: jednom bez semantic layera, jednom sa 4 KB markdown dokumentom koji opisuje “mjere, konvencije i pravila razrješavanja” datasetu.
Rezultati
Rezultati su iznenađujuće čisti:
- Bez semantic layera: 45.5%–50.5% točnosti kod sva tri modela
- Sa semantic layerom: 67.7%–68.7% točnosti kod sva tri modela
- Poboljšanje: +17 do +23 postotnih bodova
Unutar svake od dvije postavke, modeli su statistički nerazlučivi. Drugim riječima, Opus 4.7 nije značajno bolji od Sonneta 4.6 niti od GPT-5.4 ako koriste isti kontekst.
Glavna poruka
Citat autora: “The presence of the semantic-layer document accounts for essentially all of the significant variance; model choice within tier does not.”
Za enterprise praksu poruka je jasna: bolji frontier model unutar istog tier-a neće zamijeniti bolju dataset dokumentaciju. 4 KB markdown s definicijama metrika, konvencijama nazivanja i pravilima razrješavanja homonima donosi 17-23 postotnih bodova — što je značajnije od bilo kakvog model upgrade-a unutar tier-a.
Česta pitanja
- Što je semantic layer u kontekstu text-to-SQL?
- Hand-authored markdown dokument (u ovoj studiji 4 KB) koji opisuje 'mjere, konvencije i pravila razrješavanja' nad datasetom. Definira što znače pojedini stupci, kako se računaju metrike i kako razriješiti homonime.
- Koja je glavna poruka studije?
- Prisutnost semantic layer dokumenta objašnjava 'praktički svu značajnu varijancu' u rezultatima — odabir modela unutar istog tier-a (Opus 4.7 vs Sonnet 4.6 vs GPT-5.4) ne donosi statistički značajnu razliku.
- Na čemu su modeli testirani?
- 100 pitanja nad Cleaned Contoso Retail Datasetom u ClickHouseu. Svaki model je testiran s istih 100 pitanja u dvije varijante: bez semantic layer dokumenta i sa 4 KB markdown semantic layerom.
Povezane vijesti
arXiv:2606.20474: UltraQuant smanjuje latenciju KV predmemorije za 3,47× s 4-bitnom preciznošću
Anthropic: Claude Code v2.1.183 blokira destruktivne git i infrastrukturne naredbe u auto modu
AWS: SageMaker dobiva preko 100 detaljnih inference metrika i Insights nadzornu ploču na CloudWatchu