LLM树搜索疾病预测超越CDC，2025-26赛季实时验证

arXiv:2605.16238提出一个结合LLM与树搜索算法的自主系统，用于预测季节性流行病。在2025-26季节的实时预测中，该系统自主构建了流感、COVID-19和RSV模型，持续达到或超越CDC黄金标准的人工精选集成模型。

无需专家介入的流行病预测机器

马萨诸塞大学研究人员发表了一篇描述呼吸道流行病自主预测系统的论文。该系统不使用手动统计模型调优，而是采用LLM引导的树搜索——大型语言模型迭代生成、测试和优化预测代码，就像计算机搜索国际象棋中的可能走法树一样。

树搜索通过分支和剪枝系统地探索可能解的空间。集成预测结合多个模型，其平均结果超越任何单一模型——这正是CDC黄金标准系统由专家手动策划的工作原理。

本研究与实验室基准研究的关键区别在于前瞻性评估——系统在美国2025-26整个呼吸道季节中实时运行。它自主构建了三种病原体的模型：流感、COVID-19和RSV（呼吸道合胞病毒）。在所有情况下，它都持续达到或超越了CDC枢纽集成模型。

RSV的成功尤为重要，因为该病系统监测相对较新，可用数据稀缺。回顾性消融分析表明，对数尺度指标的优化可防止奖励黑客行为——即模型「欺骗」优化信号而非真正学会预测。

预测模型的手动构建是拖慢新病原体响应的瓶颈。本研究表明，LLM智能体可以以专家团队的水平自动化完成这项工作——速度更快、可扩展性更强。如果该方法在多个季节得到验证，可能会改变医疗系统规划流行病应急准备的方式。

常见问题

该系统如何预测流行病？

LLM在树搜索算法引导下，迭代生成、评估和优化疾病预测的可执行代码——类似于计算机搜索国际象棋可能走法树的方式——配合自动评判机制淘汰差解，并使用对数尺度指标防止奖励黑客行为。

与CDC相比提升幅度如何？

机器生成的集成模型在整个2025-26呼吸道季节对流感、COVID-19和RSV的前瞻性实时评估中，持续达到或超越CDC枢纽集成模型——该模型是由专家人工策划的黄金标准。

什么是RSV，为何特别难以预测？

RSV（呼吸道合胞病毒）是一种特别影响婴儿和老年人的呼吸道病原体。其预测比流感更困难，因为历史数据较少——该系统成功应对了这一「数据稀缺」场景。