LLMツリーサーチが疾患予測でCDCを超える――2025〜26シーズン実時間検証

arXiv:2605.16238は、LLMとツリーサーチアルゴリズムを組み合わせた自律システムによる季節性流行予測を発表しています。2025〜26シーズンのリアルタイム評価において、システムはインフルエンザ・COVID-19・RSVのモデルを自律構築し、CDCのゴールドスタンダードである専門家キュレーション集成モデルを一貫して達成または上回りました。

専門家不在で流行を予測するシステム

マサチューセッツ大学の研究者が、呼吸器系流行の自律予測システムを記述した論文を発表しました。統計モデルを手動で調整する代わりに、システムはLLM誘導のツリーサーチを使用します。大規模言語モデルが予測コードを反復的に生成・テスト・最適化し、チェスで可能な手を探索するのと同様のアプローチです。

ツリーサーチは、分岐と枝刈りによって可能な解の空間を系統的に探索します。アンサンブル予測は複数のモデルを組み合わせ、その平均的な結果が各モデルを上回るようにします――これは専門家が手動でキュレーションするCDCのゴールドスタンダードシステムの動作原理でもあります。

リアルタイム結果：インフルエンザ、COVID-19、RSV

この研究が実験室のベンチマーク研究と異なる重要な点は前向き評価にあります。システムは米国の2025〜26呼吸器シーズン全体にわたってリアルタイムで稼働しました。インフルエンザ・COVID-19・RSV（呼吸器合胞体ウイルス）の3種の病原体モデルを自律的に構築し、すべての場合においてCDCハブ集成モデルを一貫して達成または上回りました。

RSVでの成功は特に重要です。その系統的な監視は比較的新しく、利用可能なデータが乏しいためです。遡及的なアブレーション分析では、対数スケール指標の最適化が報酬ハッキング――モデルが実際に予測を学ぶのではなく、最適化シグナルを「欺く」状況――を防ぐことが示されました。

公衆衛生にとっての意味

予測モデルの手動作成は、新しい病原体への対応を遅らせるボトルネックです。この研究は、LLMエージェントがその作業を専門家チームと同等の水準で自動化できることを示しています――より迅速かつスケーラブルに。このアプローチが複数のシーズンで確認されれば、医療システムが流行への備えを計画する方法を変える可能性があります。

よくある質問

このシステムはどのように流行を予測しますか？

LLMがツリーサーチアルゴリズムに誘導されながら、疾患予測のための実行可能なコードを反復的に生成・評価・最適化します。チェスの指し手探索に似た手法で、自動評価機構が劣解を排除し、対数スケール指標が報酬ハッキングを防ぎます。

CDCと比較してどの程度の改善がありましたか？

機械生成集成モデルは、2025〜26呼吸器シーズン全体にわたるインフルエンザ・COVID-19・RSVの前向きリアルタイム評価において、専門家が手動でキュレーションするゴールドスタンダードのCDCハブ集成モデルを一貫して達成または上回りました。

RSVとは何ですか？なぜ予測が特に困難なのですか？

RSV（呼吸器合胞体ウイルス）は乳幼児と高齢者に特に影響を与える呼吸器病原体です。系統的な監視の歴史が浅く利用可能なデータが少ないため、インフルエンザより予測が難しいとされます。このシステムは「データ不足」シナリオも正常に克服しました。

arXiv:2605.16238: LLM誘導ツリーサーチが疾患流行予測でCDCを超える精度を実現

専門家不在で流行を予測するシステム

リアルタイム結果：インフルエンザ、COVID-19、RSV

公衆衛生にとっての意味

よくある質問

出典

関連ニュース