Kako pipeline odabire koje kombinacije NASA skupova podataka su zanimljive za hipotezu?

Heterogena grafna neuronska mreža (GNN) trenirana je na povijesnim obrascima zajedničke upotrebe skupova podataka u literaturi. GNN rangira kandidatska sparivanja po vjerojatnosti da bi zajedno dovela do smislene analize — tek ti visokoplasiranih parovi ulaze u LLM pipeline.

Može li se pouzdati na jednog LLM suca za procjenu kvalitete generiranih hipoteza?

Ne. Ključni nalaz rada je da apsolutni scorovi hipoteza značajno variraju ovisno o tome koji model-sudac ih ocjenjuje, dok relativni redosljed ostaje donekle konzistentan. Autori zaključuju da je single-judge LLM evaluacija nepouzdana i preporučuju multi-metrički pristup.

Koje su znanstvene domene pokrivene generiranim hipotezama?

Pipeline je producirao hipoteze u ekohidrologiji, glaciologiji, interakcijama aerosola i oblaka, fenologiji vegetacije i stratoferskoj kemiji — što pokazuje širinu NASA-inih skupova podataka kao polazišne osnove.

EO-Agents: 160 NASA hipoteza troagentnim LLM pipelineom

Istraživači su razvili troagentni LLM pipeline koji koristi NASA Earth Observation Knowledge Graph i GNN za rangiranje parova skupova podataka, te automatski generira istraživačke hipoteze u glaciologiji, fenologiji vegetacije i drugim domenama.

Istraživački tim u sastavu Mahyar Ghazanfari, Amin Tabrizian, Armin Mehrabian i Peng Wei predstavio je na ICML 2026 AI for Science Workshopu sustav koji kombinira grafne neuronske mreže i troagentni LLM pipeline kako bi automatski generirao istraživačke hipoteze iz NASA-inih skupova podataka za promatranje Zemlje.

Od knowledge grafa do hipoteze

Polazna točka pipeline-a je NASA Earth Observation Knowledge Graph — strukturirana baza koja obuhvaća 1.475 NASA skupova podataka iz raznih domena: od glaciologije i ekohidrologije do stratosferne kemije i fenologije vegetacije.

Sama veličina toga prostora čini ručno pretraživanje nepraktičnim. Broj mogućih parova skupova podataka raste kvadratno, a istraživač nema vremena razmatrati sve kombinacije. Tu ulazi heterogena grafna neuronska mreža (GNN) koja je trenirana na povijesnim obrascima zajedničke upotrebe skupova podataka u znanstvenoj literaturi — dakle, na parovima koji su se već pokazali plodnima u objavljenim radovima. GNN rangira kandidatska sparivanja po vjerojatnosti da bi zajedno mogla dovesti do smislene analize, i tek visokoplasirana sparivanja ulaze u LLM pipeline.

Troagentni pipeline: filtriraj, generiraj, procijeni

Arhitektura LLM dijela sustava slijedi logičnu podjelu odgovornosti. Agenta za filtriranje prima rangirane parove skupova i odbacuje one koji ne zadovoljavaju minimalnu tematsku koherentnost. Agent za generiranje formulira strukturiranu istraživačku hipotezu za svaki preostali par — opisujući koje bi fenomene mogla objasniti kombinacija tih skupova, kojom metodologijom i kakav doprinos bi mogla dati. Agent-procjenitelj ocjenjuje svaku hipotezu i pruža feedback koji može pokrenuti reviziju.

Primijenjeno na 1.475 NASA skupova, pipeline je producirao 160 znanstvenih hipoteza distribuiranih po domenama koje uključuju glaciologiju, fenologiju vegetacije, ekohidrologiju, interakcije aerosola i oblaka te stratofersku kemiju.

Je li sustav zaista smislio nešto novo?

Ključno evaluacijsko pitanje je kako mjeriti kvalitetu automatski generiranih hipoteza. Autori su koristili ekspertne evaluatore koji su uspoređivali model-predviđena nova sparivanja skupova s „pravim” sparivanjima koja su se stvarno pojavila u literaturi (ali su bila zadržana izvan treninga GNN-a).

Rezultat: model-predviđena nova sparivanja ocijenjena su „gotovo jednako uvjerljivima” kao stvarna co-usage parovi iz literature. To sugerira da GNN uspijeva uhvatiti smislenu strukturu u prostoru skupova podataka, a ne tek naučiti površinske korelacije.

Upozorenje na single-judge evaluaciju

Možda najvažniji metodološki nalaz rada nije vezan uz detekciju hipoteza, već uz njihovu evaluaciju. Autori su u faktorijalnom eksperimentu uspoređivali performanse različitih LLM-ova kao sudaca — i otkrili zabrinjavajući obrazac: relativni redosljed hipoteza ostaje donekle konzistentan između modela, ali apsolutni scorovi značajno variraju ovisno o tome koji model-sudac ocjenjuje.

To potvrđuje širu zabrinutost u ML zajednici: kada se jedan LLM koristi kao jedini sudac u evaluaciji, rezultati su pristrani prema karakteristikama toga modela — prema tome što on smatra „dobrom hipotezom”. Autori zaključuju da je za pouzdanu evaluaciju potrebno koristiti više metrika i više sudaca, a ne oslanjati se na single-judge pristup. Taj metodološki caveat nije sporedna napomena — autori ga iznose kao jednako važan doprinos rada kao i sam pipeline za generiranje hipoteza.

Zašto je automatizacija sparivanja skupova podataka vrijedna

Prostor koji EO-Agents pokriva nije trivijalan. NASA-ini skupovi podataka dolaze iz različitih instrumenata, vremenskih raspona i prostornih rezolucija — satelitski podaci o temperaturama oceana, snimci ledenih pokrivača, spektralni podaci o vegetaciji. Istraživač specijaliziran za jednu domenu možda nikad ne bude svjestan skupova koji postoje u drugoj domeni, a koji bi njegovu analizu mogli obogatiti ili potvrditi. GNN koji uči na obrascima zajedničke upotrebe pruža tu cross-domainsku vidljivost automatski.

Granica primjene

Rad je prihvaćen na ICML 2026 AI for Science Workshopu — što signalizira relevanstvo za zajednicu koja istražuje primjenu LLM-ova u znanstvenim disciplinama. Međutim, sustav u trenutnoj formi generira hipoteze — ne provjerava ih. Svaka generirana hipoteza i dalje zahtijeva ljudsku ekspertizu za ocjenu izvodivosti i podatkovnu provjeru.

Za institucije poput NASA-e koje upravljaju tisućama heterogenih skupova podataka, takav sustav može biti vrijedan alat za otkrivanje neopaženih veza između skupova koji su dosad bili izolirani u zasebnim istraživačkim zajednicama.

EO-Agents: troagentni LLM pipeline generirao 160 znanstvenih hipoteza iz 1.475 NASA skupova podataka

Od knowledge grafa do hipoteze

Troagentni pipeline: filtriraj, generiraj, procijeni

Je li sustav zaista smislio nešto novo?

Upozorenje na single-judge evaluaciju

Zašto je automatizacija sparivanja skupova podataka vrijedna

Granica primjene

Česta pitanja

Izvori

Povezane vijesti