🟢 ✨ Zanimljivosti Objavljeno: · 4 min čitanja ·

EO-Agents: troagentni LLM pipeline generirao 160 znanstvenih hipoteza iz 1.475 NASA skupova podataka

Editorial ilustracija: satelitski AI agenti za promatranje Zemlje i generiranje znanstvenih hipoteza

Istraživači su razvili troagentni LLM pipeline koji koristi NASA Earth Observation Knowledge Graph i GNN za rangiranje parova skupova podataka, te automatski generira istraživačke hipoteze u glaciologiji, fenologiji vegetacije i drugim domenama.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Istraživački tim u sastavu Mahyar Ghazanfari, Amin Tabrizian, Armin Mehrabian i Peng Wei predstavio je na ICML 2026 AI for Science Workshopu sustav koji kombinira grafne neuronske mreže i troagentni LLM pipeline kako bi automatski generirao istraživačke hipoteze iz NASA-inih skupova podataka za promatranje Zemlje.

Od knowledge grafa do hipoteze

Polazna točka pipeline-a je NASA Earth Observation Knowledge Graph — strukturirana baza koja obuhvaća 1.475 NASA skupova podataka iz raznih domena: od glaciologije i ekohidrologije do stratosferne kemije i fenologije vegetacije.

Sama veličina toga prostora čini ručno pretraživanje nepraktičnim. Broj mogućih parova skupova podataka raste kvadratno, a istraživač nema vremena razmatrati sve kombinacije. Tu ulazi heterogena grafna neuronska mreža (GNN) koja je trenirana na povijesnim obrascima zajedničke upotrebe skupova podataka u znanstvenoj literaturi — dakle, na parovima koji su se već pokazali plodnima u objavljenim radovima. GNN rangira kandidatska sparivanja po vjerojatnosti da bi zajedno mogla dovesti do smislene analize, i tek visokoplasirana sparivanja ulaze u LLM pipeline.

Troagentni pipeline: filtriraj, generiraj, procijeni

Arhitektura LLM dijela sustava slijedi logičnu podjelu odgovornosti. Agenta za filtriranje prima rangirane parove skupova i odbacuje one koji ne zadovoljavaju minimalnu tematsku koherentnost. Agent za generiranje formulira strukturiranu istraživačku hipotezu za svaki preostali par — opisujući koje bi fenomene mogla objasniti kombinacija tih skupova, kojom metodologijom i kakav doprinos bi mogla dati. Agent-procjenitelj ocjenjuje svaku hipotezu i pruža feedback koji može pokrenuti reviziju.

Primijenjeno na 1.475 NASA skupova, pipeline je producirao 160 znanstvenih hipoteza distribuiranih po domenama koje uključuju glaciologiju, fenologiju vegetacije, ekohidrologiju, interakcije aerosola i oblaka te stratofersku kemiju.

Je li sustav zaista smislio nešto novo?

Ključno evaluacijsko pitanje je kako mjeriti kvalitetu automatski generiranih hipoteza. Autori su koristili ekspertne evaluatore koji su uspoređivali model-predviđena nova sparivanja skupova s „pravim” sparivanjima koja su se stvarno pojavila u literaturi (ali su bila zadržana izvan treninga GNN-a).

Rezultat: model-predviđena nova sparivanja ocijenjena su „gotovo jednako uvjerljivima” kao stvarna co-usage parovi iz literature. To sugerira da GNN uspijeva uhvatiti smislenu strukturu u prostoru skupova podataka, a ne tek naučiti površinske korelacije.

Upozorenje na single-judge evaluaciju

Možda najvažniji metodološki nalaz rada nije vezan uz detekciju hipoteza, već uz njihovu evaluaciju. Autori su u faktorijalnom eksperimentu uspoređivali performanse različitih LLM-ova kao sudaca — i otkrili zabrinjavajući obrazac: relativni redosljed hipoteza ostaje donekle konzistentan između modela, ali apsolutni scorovi značajno variraju ovisno o tome koji model-sudac ocjenjuje.

To potvrđuje širu zabrinutost u ML zajednici: kada se jedan LLM koristi kao jedini sudac u evaluaciji, rezultati su pristrani prema karakteristikama toga modela — prema tome što on smatra „dobrom hipotezom”. Autori zaključuju da je za pouzdanu evaluaciju potrebno koristiti više metrika i više sudaca, a ne oslanjati se na single-judge pristup. Taj metodološki caveat nije sporedna napomena — autori ga iznose kao jednako važan doprinos rada kao i sam pipeline za generiranje hipoteza.

Zašto je automatizacija sparivanja skupova podataka vrijedna

Prostor koji EO-Agents pokriva nije trivijalan. NASA-ini skupovi podataka dolaze iz različitih instrumenata, vremenskih raspona i prostornih rezolucija — satelitski podaci o temperaturama oceana, snimci ledenih pokrivača, spektralni podaci o vegetaciji. Istraživač specijaliziran za jednu domenu možda nikad ne bude svjestan skupova koji postoje u drugoj domeni, a koji bi njegovu analizu mogli obogatiti ili potvrditi. GNN koji uči na obrascima zajedničke upotrebe pruža tu cross-domainsku vidljivost automatski.

Granica primjene

Rad je prihvaćen na ICML 2026 AI for Science Workshopu — što signalizira relevanstvo za zajednicu koja istražuje primjenu LLM-ova u znanstvenim disciplinama. Međutim, sustav u trenutnoj formi generira hipoteze — ne provjerava ih. Svaka generirana hipoteza i dalje zahtijeva ljudsku ekspertizu za ocjenu izvodivosti i podatkovnu provjeru.

Za institucije poput NASA-e koje upravljaju tisućama heterogenih skupova podataka, takav sustav može biti vrijedan alat za otkrivanje neopaženih veza između skupova koji su dosad bili izolirani u zasebnim istraživačkim zajednicama.

Česta pitanja

Kako pipeline odabire koje kombinacije NASA skupova podataka su zanimljive za hipotezu?
Heterogena grafna neuronska mreža (GNN) trenirana je na povijesnim obrascima zajedničke upotrebe skupova podataka u literaturi. GNN rangira kandidatska sparivanja po vjerojatnosti da bi zajedno dovela do smislene analize — tek ti visokoplasiranih parovi ulaze u LLM pipeline.
Može li se pouzdati na jednog LLM suca za procjenu kvalitete generiranih hipoteza?
Ne. Ključni nalaz rada je da apsolutni scorovi hipoteza značajno variraju ovisno o tome koji model-sudac ih ocjenjuje, dok relativni redosljed ostaje donekle konzistentan. Autori zaključuju da je single-judge LLM evaluacija nepouzdana i preporučuju multi-metrički pristup.
Koje su znanstvene domene pokrivene generiranim hipotezama?
Pipeline je producirao hipoteze u ekohidrologiji, glaciologiji, interakcijama aerosola i oblaka, fenologiji vegetacije i stratoferskoj kemiji — što pokazuje širinu NASA-inih skupova podataka kao polazišne osnove.