セマンティックレイヤーでtext-to-SQL精度+17〜23ポイント

RumiantsauとFokeevによる2026年4月28日付けのArXivプレプリントは、3つのフロンティアLLM（Claude Opus 4.7、Sonnet 4.6、GPT-5.4）に対してClickHouseのCleaned Contoso小売データセット上で100問のtext-to-SQLテストを実施。セマンティックレイヤーなしでは45.5〜50.5%、4KBのMarkdownセマンティック文書ありでは67.7〜68.7%の精度——同層内のモデルは統計的に区別不可能でした。

Michael RumiantsauとIvan Fokeevは2026年4月28日、信頼性の高いLLM駆動データ分析のためのセマンティックレイヤー：3つのフロンティアモデルにわたる精度と幻覚の対比ベンチマークのArXivプレプリントを発表しました。研究はシンプルながら強力な問いを立てています：text-to-SQLの精度において、モデルはどの程度「重要」で、コンテキスト（セマンティックレイヤー）はどの程度重要なのか？

実験の設定

著者らは3つのフロンティアモデルをテストします：Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.4。ベンチマークは100問の自然言語質問で構成され、ClickHouseのCleaned Contoso小売データセット上でSQLクエリに変換されます。各モデルは2ラウンド実施：1回はセマンティックレイヤーなし、1回はデータセットの「メジャー・規約・曖昧性解消のルール」を記述した4KBのMarkdownドキュメントあり。

結果

結果は驚くほど明確です：

セマンティックレイヤーなし： 3つのモデルすべてで**45.5%〜50.5%**の精度
セマンティックレイヤーあり： 3つのモデルすべてで**67.7%〜68.7%**の精度
改善幅： +17〜+23ポイント

2つの設定それぞれの中で、モデルは統計的に区別不可能です。言い換えれば、同じコンテキストを使用すれば、Opus 4.7はSonnet 4.6やGPT-5.4と比べて統計的に有意に優れているわけではありません。

主なメッセージ

著者らの引用：「セマンティックレイヤードキュメントの存在が実質的にすべての有意な分散を説明する；同層内のモデル選択は関係ない。」

エンタープライズの実践においてメッセージは明確です：同層内のより良いフロンティアモデルは、より良いデータセット文書化の代わりにはならない。メトリクスの定義・命名規則・同音異義語解消のルールを含む4KBのMarkdownが17〜23ポイントをもたらします——これは同層内のどんなモデルアップグレードより重要です。

よくある質問

text-to-SQLの文脈でセマンティックレイヤーとは何ですか？

データセットの「メジャー・規約・曖昧性解消のルール」を記述する手書きのMarkdownドキュメント（本研究では4KB）です。各カラムの意味、メトリクスの計算方法、同音異義語の解決方法を定義します。

研究の主なメッセージは何ですか？

セマンティックレイヤードキュメントの存在が「実質的にすべての有意な分散を説明」する——同層内のモデル選択（Opus 4.7 vs Sonnet 4.6 vs GPT-5.4）は統計的に有意な差をもたらさない。

モデルはどのデータセットでテストされましたか？

ClickHouseのCleaned Contoso小売データセット上で100問のテストを実施。各モデルはセマンティックレイヤードキュメントなしと4KBのMarkdownセマンティックレイヤーありの2条件でテストされました。

Text-to-SQLベンチマーク研究：4KBのセマンティックレイヤーが精度を17〜23ポイント向上、モデルの選択は決定的でない

実験の設定

結果

主なメッセージ

よくある質問

出典

関連ニュース