语义层使text-to-SQL准确率提升17-23个百分点

Rumiantsau和Fokeev于2026年4月28日发布的ArXiv预印本，对三款前沿LLM（Claude Opus 4.7、Sonnet 4.6、GPT-5.4）在ClickHouse中的Cleaned Contoso零售数据集上进行了100道text-to-SQL问题的测试。无语义层时模型准确率为45.5-50.5%，加入4KB Markdown语义文档后提升至67.7-68.7%——同层级模型在统计上无显著差异。

Michael Rumiantsau和Ivan Fokeev于2026年4月28日发布了ArXiv预印本用于可靠LLM驱动数据分析的语义层：三款前沿模型准确性与幻觉的配对基准测试。研究提出了一个简单而有力的问题：对于text-to-SQL准确率，模型的影响有多大，上下文（语义层）的影响又有多大？

实验设置

作者测试了三款前沿模型：Claude Opus 4.7、Claude Sonnet 4.6和GPT-5.4。基准测试由100道自然语言问题组成，需将其转化为SQL查询，在ClickHouse中的Cleaned Contoso零售数据集上运行。每个模型运行两轮：一次无语义层，一次有4KB Markdown文档，该文档描述数据集的”度量标准、约定和消歧规则”。

结果

结果出人意料地清晰：

无语义层： 三款模型准确率均为45.5%–50.5%
有语义层： 三款模型准确率均为67.7%–68.7%
提升幅度： +17至+23个百分点

在每种条件下，模型在统计上无法区分。换言之，如果使用相同的上下文，Opus 4.7并不显著优于Sonnet 4.6或GPT-5.4。

核心结论

作者原话：“语义层文档的存在实际上解释了所有显著的方差；同层级内的模型选择并不重要。”

对于企业实践，信息明确：同层级内更好的前沿模型无法替代更好的数据集文档。含有指标定义、命名约定和同音词消歧规则的4KB Markdown带来17-23个百分点的提升——这比同层级内的任何模型升级都更为显著。

常见问题

在text-to-SQL语境中什么是语义层？

一份手工编写的Markdown文档（本研究中为4KB），描述数据集的“度量标准、约定和消歧规则”。定义各列的含义、指标的计算方式以及如何解决同音词歧义。

研究的核心结论是什么？

语义层文档的存在解释了“实际上所有显著的方差”——同层级内的模型选择（Opus 4.7 vs Sonnet 4.6 vs GPT-5.4）不产生统计显著差异。

模型在什么数据集上测试的？

在ClickHouse中的Cleaned Contoso零售数据集上进行100道问题测试。每个模型分两种条件运行：无语义层文档和有4KB Markdown语义层。

Text-to-SQL基准研究：4KB语义层使准确率提升17-23个百分点，模型选择并非关键

实验设置

结果

核心结论

常见问题

来源

相关新闻