Simula使用哪四个控制维度？

全局多样化（层次分类体系）、局部多样化（元提示）、复杂化（难度独立控制）和质量控制（双评论者循环）。

哪些谷歌产品已由Simula驱动？

ShieldGemma、FunctionGemma、MedGemma、Gemini安全分类器（设备端和服务端）、Android通话欺诈检测以及Google Messages中的垃圾过滤器。

使用Gemini 2.5 Flash作为生成数据的教师模型，Gemma-3 4B作为训练的学生模型。评估采用分类覆盖度和校准复杂度评分，通过带Elo评级的LLM批量比较进行。

2026年4月16日，Google Research发布了关于Simula框架的详细技术文章——这是一个从根本上改变特定AI应用中数据短缺问题处理方式的合成数据生成系统。作者Tim R. Davidson和Hamza Harkous认为，问题必须**“从样本层面重新框架为机制层面”**。

传统的合成数据方法优化单个示例——更好的提示、更好的温度、更好的过滤器。作者认为，这对于自然缺乏数据的领域（受监管领域、新的专业任务、隐私敏感应用）无法规模化。

Simula转而设计一个同时在多个维度控制生成数据分布的机制。结果是从业者可以像设计架构一样调整”数据集的样貌”——使用明确参数，而非试错。

该框架将生成分解为四个独立维度：

全局多样化使用推理模型构建映射领域概念空间的层次分类体系。这些分类体系充当**“采样脚手架”**，确保覆盖长尾分布，而非堆积在最常见的案例周围。

局部多样化使用从分类节点派生的元提示，在同一主题内生成多个不同实例，防止模式崩溃——即模型重复相同样本的变体。

复杂化将难度视为正交维度，允许在不改变语义覆盖范围的情况下移动数据集难度分布。从业者可以为同一主题生成简单和复杂变体。

质量控制通过双评论者循环运作——两个独立验证者减少LLM的奉承倾向，确保高质量标注。

系统使用Gemini 2.5 Flash作为生成的教师模型，Gemma-3 4B作为训练的学生模型。评估依赖分类覆盖度和校准复杂度评分指标，后者通过LLM批量比较为每个示例分配Elo评级。

测试覆盖五个领域：网络安全（CTI-MCQ、CTI-RCM）、法律推理（LEXam）、数学（GSM8k）和多语言知识（Global MMLU）。每个领域生成的数据集最多包含512,000个示例。

有趣的发现：高复杂度使数学准确率提升10%，但会降低法律推理能力。作者将此解读为”没有单一最优方案”的证据——每个领域需要其自己的维度组合。

Simula并非实验性项目。文章揭示它已驱动：

此次发布标志着谷歌已将内部合成基础设施提升至一流AI原语的地位——对待其与模型架构或硬件栈同等认真。