Studija text-to-SQL benchmarka: 4KB semantic layer dodaje 17-23 postotnih bodova točnosti, model choice ne odlučuje
ArXiv preprint Rumiantsau i Fokeev (28. travnja 2026.) testira tri frontier LLM-a (Claude Opus 4.7, Sonnet 4.6, GPT-5.4) na 100 text-to-SQL pitanja nad Cleaned Contoso retail datasetom u ClickHouseu. Bez semantic layera modeli postižu 45.5-50.5% točnosti, sa 4KB markdown semantic dokumentom 67.7-68.7% — modeli su statistički nerazlučivi unutar tier-a.
Michael Rumiantsau i Ivan Fokeev objavili su 28. travnja 2026. ArXiv preprint Semantic Layers for Reliable LLM-Powered Data Analytics: A Paired Benchmark of Accuracy and Hallucination Across Three Frontier Models. Studija postavlja jednostavno ali snažno pitanje: koliko model “matters” naspram koliko kontekst (semantic layer) matters za text-to-SQL točnost?
Postavka eksperimenta
Autori testiraju tri frontier modela: Claude Opus 4.7, Claude Sonnet 4.6 i GPT-5.4. Benchmark se sastoji od 100 prirodnojezičnih pitanja koja se prevode u SQL upite nad Cleaned Contoso Retail Datasetom smještenim u ClickHouseu. Svaki model trči dvije runde: jednom bez semantic layera, jednom sa 4 KB markdown dokumentom koji opisuje “mjere, konvencije i pravila razrješavanja” datasetu.
Rezultati
Rezultati su iznenađujuće čisti:
- Bez semantic layera: 45.5%–50.5% točnosti kod sva tri modela
- Sa semantic layerom: 67.7%–68.7% točnosti kod sva tri modela
- Poboljšanje: +17 do +23 postotnih bodova
Unutar svake od dvije postavke, modeli su statistički nerazlučivi. Drugim riječima, Opus 4.7 nije značajno bolji od Sonneta 4.6 niti od GPT-5.4 ako koriste isti kontekst.
Glavna poruka
Citat autora: “The presence of the semantic-layer document accounts for essentially all of the significant variance; model choice within tier does not.”
Za enterprise praksu poruka je jasna: bolji frontier model unutar istog tier-a neće zamijeniti bolju dataset dokumentaciju. 4 KB markdown s definicijama metrika, konvencijama nazivanja i pravilima razrješavanja homonima donosi 17-23 postotnih bodova — što je značajnije od bilo kakvog model upgrade-a unutar tier-a.
Česta pitanja
- Što je semantic layer u kontekstu text-to-SQL?
- Hand-authored markdown dokument (u ovoj studiji 4 KB) koji opisuje 'mjere, konvencije i pravila razrješavanja' nad datasetom. Definira što znače pojedini stupci, kako se računaju metrike i kako razriješiti homonime.
- Koja je glavna poruka studije?
- Prisutnost semantic layer dokumenta objašnjava 'praktički svu značajnu varijancu' u rezultatima — odabir modela unutar istog tier-a (Opus 4.7 vs Sonnet 4.6 vs GPT-5.4) ne donosi statistički značajnu razliku.
- Na čemu su modeli testirani?
- 100 pitanja nad Cleaned Contoso Retail Datasetom u ClickHouseu. Svaki model je testiran s istih 100 pitanja u dvije varijante: bez semantic layer dokumenta i sa 4 KB markdown semantic layerom.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
DeepMind AI co-clinician: u slijepoj evaluaciji 98 primary care upita liječnici preferirali sustav nad vodećim alatima, nula kritičnih grešaka u 97/98 slučajeva
Anthropic Claude for Creative Work: konektori za Blender, 50+ Adobe Creative Cloud alata, Autodesk Fusion, Ableton, SketchUp i Splice
Google ERA: AI sustav za znanstvena istraživanja postiže CDC top za prognozu hospitalizacija, rješava neriješen kozmološki problem i prati CO2 svakih 10 minuta