流水线如何选择哪些NASA数据集组合适合生成假设？

在文献中数据集联合使用的历史模式上训练了一个异构图神经网络（GNN）。GNN按两者联合分析产生有意义结果的可能性对候选配对进行排名——只有排名靠前的配对才进入LLM流水线。

能否信任单一LLM评判者来评估生成假设的质量？

不能。论文的关键发现是，假设的绝对分数因评判模型不同而显著变化，而相对排名则保持一定一致性。作者得出结论，单一评判者LLM评估不可靠，建议使用多指标方法。

生成的假设涵盖哪些科学领域？

流水线在生态水文学、冰川学、气溶胶与云相互作用、植被物候学和平流层化学领域产生了假设——展示了作为起点的NASA数据集的广度。

EO-Agents：三代理LLM流水线生成160个NASA假设

研究人员开发了一种三代理LLM流水线，利用NASA地球观测知识图谱和GNN对数据集对进行排名，并在冰川学、植被物候学等领域自动生成研究假设。

研究团队成员Mahyar Ghazanfari、Amin Tabrizian、Armin Mehrabian和Peng Wei在ICML 2026 AI for Science工作坊上展示了一个系统，该系统结合图神经网络和三代理LLM流水线，从NASA地球观测数据集中自动生成研究假设。

从知识图谱到假设

流水线的起点是NASA地球观测知识图谱——一个涵盖各类领域1,475个NASA数据集的结构化知识库：从冰川学和生态水文学到平流层化学和植被物候学。

仅这个空间的规模就使手动探索变得不切实际。候选数据集对的数量呈二次方增长，研究人员没有时间考虑所有组合。这时**异构图神经网络（GNN）**介入——它在文献中数据集联合使用的历史模式上训练，即在已发表论文中已证明有成效的数据集对上训练。GNN按两者联合分析可能产生有意义结果的概率对候选配对进行排名，只有排名靠前的配对才进入LLM流水线。

三代理流水线：过滤、生成、评估

LLM部分的架构遵循合理的职责分工。过滤代理接收排名后的数据集对，丢弃不满足最低主题一致性的对。生成代理为每个剩余的对制定结构化的研究假设——描述该数据集组合可以解释哪些现象、采用什么方法以及可能做出什么贡献。评估代理评分每个假设并提供可以触发修订的反馈。

应用于1,475个NASA数据集，流水线产生了160个科学假设，分布在包括冰川学、植被物候学、生态水文学、气溶胶与云相互作用以及平流层化学在内的领域。

系统是否真的产生了新发现？

关键的评估问题是如何衡量自动生成假设的质量。作者使用专家评估者，将模型预测的新数据集配对与「真实」的在文献中实际出现的配对（但在GNN训练之外保留的）进行比较。

结果：模型预测的新配对被评为**「几乎同样令人信服」**，与文献中的真实共同使用对相当。这表明GNN成功捕获了数据集空间中的有意义结构，而非仅学习了表面相关性。

对单一评判者评估的警告

论文中可能最重要的方法论发现与假设检测无关，而与其评估有关。作者在析因实验中比较了不同LLM作为评判者的表现——发现了一个令人担忧的模式：假设的相对排名在模型间保持一定一致性，但绝对分数因评判模型不同而显著变化。

这证实了ML社区更广泛的担忧：当一个LLM用作唯一评判者时，结果偏向该模型的特性——偏向它认为「好假设」的内容。作者得出结论，可靠的评估需要使用多个指标和多个评判者，而不是依赖单一评判者方法。这一方法论警告不是附带说明——作者将其视为与假设生成流水线本身同等重要的论文贡献。

为什么数据集配对自动化有价值

EO-Agents覆盖的空间并不简单。NASA的数据集来自不同的仪器、时间范围和空间分辨率——海洋温度卫星数据、冰盖图像、植被光谱数据。专注于某一领域的研究人员可能永远不会意识到另一领域存在的数据集，而这些数据集可能丰富或证实他们的分析。在共同使用模式上学习的GNN自动提供这种跨领域可见性。

应用界限

论文被ICML 2026 AI for Science工作坊接受——这表明对于研究LLM在科学学科中应用的社区的相关性。然而，该系统目前仅生成假设——不验证假设。每个生成的假设仍需要人类专业知识来评估可行性和数据验证。

对于像NASA这样管理数千个异构数据集的机构，这样的系统可以成为发现此前在各自研究社区中孤立存在的数据集之间未被注意到的联系的有价值工具。

EO-Agents：三代理LLM流水线从1,475个NASA数据集生成160个科学假设