EO-Agents: troagentni LLM pipeline generirao 160 znanstvenih hipoteza iz 1.475 NASA skupova podataka
Istraživači su razvili troagentni LLM pipeline koji koristi NASA Earth Observation Knowledge Graph i GNN za rangiranje parova skupova podataka, te automatski generira istraživačke hipoteze u glaciologiji, fenologiji vegetacije i drugim domenama.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživački tim u sastavu Mahyar Ghazanfari, Amin Tabrizian, Armin Mehrabian i Peng Wei predstavio je na ICML 2026 AI for Science Workshopu sustav koji kombinira grafne neuronske mreže i troagentni LLM pipeline kako bi automatski generirao istraživačke hipoteze iz NASA-inih skupova podataka za promatranje Zemlje.
Od knowledge grafa do hipoteze
Polazna točka pipeline-a je NASA Earth Observation Knowledge Graph — strukturirana baza koja obuhvaća 1.475 NASA skupova podataka iz raznih domena: od glaciologije i ekohidrologije do stratosferne kemije i fenologije vegetacije.
Sama veličina toga prostora čini ručno pretraživanje nepraktičnim. Broj mogućih parova skupova podataka raste kvadratno, a istraživač nema vremena razmatrati sve kombinacije. Tu ulazi heterogena grafna neuronska mreža (GNN) koja je trenirana na povijesnim obrascima zajedničke upotrebe skupova podataka u znanstvenoj literaturi — dakle, na parovima koji su se već pokazali plodnima u objavljenim radovima. GNN rangira kandidatska sparivanja po vjerojatnosti da bi zajedno mogla dovesti do smislene analize, i tek visokoplasirana sparivanja ulaze u LLM pipeline.
Troagentni pipeline: filtriraj, generiraj, procijeni
Arhitektura LLM dijela sustava slijedi logičnu podjelu odgovornosti. Agenta za filtriranje prima rangirane parove skupova i odbacuje one koji ne zadovoljavaju minimalnu tematsku koherentnost. Agent za generiranje formulira strukturiranu istraživačku hipotezu za svaki preostali par — opisujući koje bi fenomene mogla objasniti kombinacija tih skupova, kojom metodologijom i kakav doprinos bi mogla dati. Agent-procjenitelj ocjenjuje svaku hipotezu i pruža feedback koji može pokrenuti reviziju.
Primijenjeno na 1.475 NASA skupova, pipeline je producirao 160 znanstvenih hipoteza distribuiranih po domenama koje uključuju glaciologiju, fenologiju vegetacije, ekohidrologiju, interakcije aerosola i oblaka te stratofersku kemiju.
Je li sustav zaista smislio nešto novo?
Ključno evaluacijsko pitanje je kako mjeriti kvalitetu automatski generiranih hipoteza. Autori su koristili ekspertne evaluatore koji su uspoređivali model-predviđena nova sparivanja skupova s „pravim” sparivanjima koja su se stvarno pojavila u literaturi (ali su bila zadržana izvan treninga GNN-a).
Rezultat: model-predviđena nova sparivanja ocijenjena su „gotovo jednako uvjerljivima” kao stvarna co-usage parovi iz literature. To sugerira da GNN uspijeva uhvatiti smislenu strukturu u prostoru skupova podataka, a ne tek naučiti površinske korelacije.
Upozorenje na single-judge evaluaciju
Možda najvažniji metodološki nalaz rada nije vezan uz detekciju hipoteza, već uz njihovu evaluaciju. Autori su u faktorijalnom eksperimentu uspoređivali performanse različitih LLM-ova kao sudaca — i otkrili zabrinjavajući obrazac: relativni redosljed hipoteza ostaje donekle konzistentan između modela, ali apsolutni scorovi značajno variraju ovisno o tome koji model-sudac ocjenjuje.
To potvrđuje širu zabrinutost u ML zajednici: kada se jedan LLM koristi kao jedini sudac u evaluaciji, rezultati su pristrani prema karakteristikama toga modela — prema tome što on smatra „dobrom hipotezom”. Autori zaključuju da je za pouzdanu evaluaciju potrebno koristiti više metrika i više sudaca, a ne oslanjati se na single-judge pristup. Taj metodološki caveat nije sporedna napomena — autori ga iznose kao jednako važan doprinos rada kao i sam pipeline za generiranje hipoteza.
Zašto je automatizacija sparivanja skupova podataka vrijedna
Prostor koji EO-Agents pokriva nije trivijalan. NASA-ini skupovi podataka dolaze iz različitih instrumenata, vremenskih raspona i prostornih rezolucija — satelitski podaci o temperaturama oceana, snimci ledenih pokrivača, spektralni podaci o vegetaciji. Istraživač specijaliziran za jednu domenu možda nikad ne bude svjestan skupova koji postoje u drugoj domeni, a koji bi njegovu analizu mogli obogatiti ili potvrditi. GNN koji uči na obrascima zajedničke upotrebe pruža tu cross-domainsku vidljivost automatski.
Granica primjene
Rad je prihvaćen na ICML 2026 AI for Science Workshopu — što signalizira relevanstvo za zajednicu koja istražuje primjenu LLM-ova u znanstvenim disciplinama. Međutim, sustav u trenutnoj formi generira hipoteze — ne provjerava ih. Svaka generirana hipoteza i dalje zahtijeva ljudsku ekspertizu za ocjenu izvodivosti i podatkovnu provjeru.
Za institucije poput NASA-e koje upravljaju tisućama heterogenih skupova podataka, takav sustav može biti vrijedan alat za otkrivanje neopaženih veza između skupova koji su dosad bili izolirani u zasebnim istraživačkim zajednicama.
Česta pitanja
- Kako pipeline odabire koje kombinacije NASA skupova podataka su zanimljive za hipotezu?
- Heterogena grafna neuronska mreža (GNN) trenirana je na povijesnim obrascima zajedničke upotrebe skupova podataka u literaturi. GNN rangira kandidatska sparivanja po vjerojatnosti da bi zajedno dovela do smislene analize — tek ti visokoplasiranih parovi ulaze u LLM pipeline.
- Može li se pouzdati na jednog LLM suca za procjenu kvalitete generiranih hipoteza?
- Ne. Ključni nalaz rada je da apsolutni scorovi hipoteza značajno variraju ovisno o tome koji model-sudac ih ocjenjuje, dok relativni redosljed ostaje donekle konzistentan. Autori zaključuju da je single-judge LLM evaluacija nepouzdana i preporučuju multi-metrički pristup.
- Koje su znanstvene domene pokrivene generiranim hipotezama?
- Pipeline je producirao hipoteze u ekohidrologiji, glaciologiji, interakcijama aerosola i oblaka, fenologiji vegetacije i stratoferskoj kemiji — što pokazuje širinu NASA-inih skupova podataka kao polazišne osnove.