EO-Agents: Drei-Agenten-LLM-Pipeline generierte 160 wissenschaftliche Hypothesen aus 1.475 NASA-Datensätzen
Forscher entwickelten eine Drei-Agenten-LLM-Pipeline, die einen NASA-Earth-Observation-Knowledge-Graph und ein GNN zur Rangfolge von Datensatzpaaren nutzt und automatisch Forschungshypothesen in Glaziologie, Vegetationsphänologie und weiteren Domänen generiert.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Ein Forscherteam bestehend aus Mahyar Ghazanfari, Amin Tabrizian, Armin Mehrabian und Peng Wei präsentierte auf dem ICML 2026 AI for Science Workshop ein System, das Graph Neural Networks und eine Drei-Agenten-LLM-Pipeline kombiniert, um automatisch Forschungshypothesen aus NASA-Erdbeobachtungsdatensätzen zu generieren.
Vom Knowledge Graph zur Hypothese
Ausgangspunkt der Pipeline ist der NASA Earth Observation Knowledge Graph — eine strukturierte Datenbank mit 1.475 NASA-Datensätzen aus verschiedenen Domänen: von Glaziologie und Ökohydrologie bis zu stratosphärischer Chemie und Vegetationsphänologie.
Die schiere Größe dieses Raums macht eine manuelle Durchsuchung unpraktikabel. Die Anzahl möglicher Datensatzpaare wächst quadratisch, und ein Forscher hat keine Zeit, alle Kombinationen zu prüfen. Hier setzt ein heterogenes Graph Neural Network (GNN) an, das auf historischen Co-Usage-Mustern von Datensätzen in der wissenschaftlichen Literatur trainiert wurde — also auf Paaren, die sich in veröffentlichten Arbeiten bereits als fruchtbar erwiesen haben. Das GNN bewertet Kandidatenpaare nach der Wahrscheinlichkeit, dass sie zusammen zu einer sinnvollen Analyse führen könnten, und nur hochrangige Paarungen gelangen in die LLM-Pipeline.
Drei-Agenten-Pipeline: Filtern, Generieren, Bewerten
Die Architektur des LLM-Teils des Systems folgt einer logischen Aufgabenteilung. Der Filter-Agent empfängt die gerankte Liste von Paaren und verwirft jene, die eine Mindest-Themenkohärenz nicht erfüllen. Der Generierungs-Agent formuliert für jedes verbleibende Paar eine strukturierte Forschungshypothese — und beschreibt, welche Phänomene die Kombination dieser Datensätze erklären könnte, mit welcher Methodik und welchen potenziellen Beitrag. Der Bewertungs-Agent bewertet jede Hypothese und gibt Feedback, das eine Überarbeitung anstoßen kann.
Angewendet auf 1.475 NASA-Datensätze erzeugte die Pipeline 160 wissenschaftliche Hypothesen verteilt auf Domänen wie Glaziologie, Vegetationsphänologie, Ökohydrologie, Aerosol-Wolken-Wechselwirkungen und stratosphärische Chemie.
Hat das System wirklich etwas Neues gefunden?
Die zentrale Evaluierungsfrage ist, wie die Qualität automatisch generierter Hypothesen gemessen werden kann. Die Autoren verwendeten Experten-Evaluatoren, die vom Modell vorhergesagte neue Paarungen mit „echten” Paarungen verglichen, die tatsächlich in der Literatur aufgetaucht sind (aber beim GNN-Training zurückgehalten wurden).
Ergebnis: Die vom Modell vorhergesagten neuen Paarungen wurden als „nahezu gleich überzeugend” wie tatsächliche Co-Usage-Paare aus der Literatur bewertet. Das deutet darauf hin, dass das GNN eine sinnvolle Struktur im Datensatzraum erfasst — und keine oberflächlichen Korrelationen gelernt hat.
Warnung vor Single-Judge-Evaluierung
Der vielleicht wichtigste methodische Befund der Arbeit bezieht sich nicht auf die Hypothesenerkennung, sondern auf ihre Bewertung. Die Autoren verglichen in einem faktoriellen Experiment die Leistung verschiedener LLMs als Richter — und entdeckten ein besorgniserregendes Muster: Die relative Reihenfolge der Hypothesen bleibt zwischen Modellen einigermaßen konsistent, aber absolute Scores variieren erheblich je nach bewertendem Modell.
Das bestätigt eine breitere Sorge in der ML-Gemeinschaft: Wenn ein einzelner LLM als alleiniger Richter bei der Evaluierung verwendet wird, sind die Ergebnisse auf die Charakteristika dieses Modells verzerrt — auf das, was es als „gute Hypothese” betrachtet. Die Autoren schlussfolgern, dass für eine zuverlässige Evaluierung mehrere Metriken und mehrere Richter notwendig sind. Dieser methodische Vorbehalt ist keine Randnotiz — die Autoren stellen ihn als ebenso wichtigen Beitrag der Arbeit dar wie die Pipeline zur Hypothesengenerierung.
Warum die Automatisierung der Datensatzpaarung wertvoll ist
Der Raum, den EO-Agents abdeckt, ist nicht trivial. NASA-Datensätze stammen aus verschiedenen Instrumenten, Zeiträumen und räumlichen Auflösungen — Satellitendaten über Ozeantemperaturen, Aufnahmen von Eisschilden, Spektraldaten über Vegetation. Ein auf eine Domäne spezialisierter Forscher ist sich vielleicht nie der Datensätze bewusst, die in einer anderen Domäne existieren und seine Analyse bereichern oder bestätigen könnten. Das GNN, das auf Co-Usage-Mustern lernt, bietet diese domänenübergreifende Sichtbarkeit automatisch.
Anwendungsbereich
Die Arbeit wurde auf dem ICML 2026 AI for Science Workshop angenommen — was die Relevanz für die Gemeinschaft signalisiert, die den Einsatz von LLMs in wissenschaftlichen Disziplinen erforscht. Das System in seiner aktuellen Form generiert jedoch Hypothesen — es überprüft sie nicht. Jede generierte Hypothese erfordert weiterhin menschliche Expertise zur Beurteilung der Durchführbarkeit und eine Datenvalidierung.
Für Institutionen wie die NASA, die Tausende heterogener Datensätze verwalten, kann ein solches System ein wertvolles Werkzeug zur Entdeckung übersehener Verbindungen zwischen Datensätzen sein, die bisher in isolierten Forschungsgemeinschaften existierten.
Häufig gestellte Fragen
- Wie wählt die Pipeline aus, welche NASA-Datensatzkombinationen für eine Hypothese interessant sind?
- Ein heterogenes Graph Neural Network (GNN) wurde auf historischen Co-Usage-Mustern von Datensätzen in der Literatur trainiert. Das GNN bewertet Kandidatenpaare nach der Wahrscheinlichkeit, dass sie zusammen zu einer sinnvollen Analyse führen — nur hochrangige Paare gelangen in die LLM-Pipeline.
- Kann man einem einzelnen LLM-Richter bei der Bewertung generierter Hypothesen vertrauen?
- Nein. Der zentrale methodische Befund der Arbeit ist, dass absolute Hypothesen-Scores je nach bewertendem Modell erheblich variieren, während die relative Reihenfolge einigermaßen konsistent bleibt. Die Autoren schlussfolgern, dass Single-Judge-LLM-Evaluierung unzuverlässig ist, und empfehlen einen Multi-Metrik-Ansatz.
- Welche wissenschaftlichen Domänen decken die generierten Hypothesen ab?
- Die Pipeline erzeugte Hypothesen in Ökohydrologie, Glaziologie, Aerosol-Wolken-Wechselwirkungen, Vegetationsphänologie und stratosphärischer Chemie — was die Breite der NASA-Datensätze als Ausgangsbasis zeigt.
Verwandte Nachrichten
Zwei KI-Metriken divergierten – wird das den entscheidenden Unterschied machen?
IBM: Wimbledon 2026 erhält einen KI-gestützten persönlichen Begleiter für Zuschauer und modernisierte digitale Plattformen
arXiv:2606.20205: Psychologische Profile von Sprachmodellen sind größtenteils ein Messartefakt, keine stabile Persönlichkeit