arXiv:2604.21910: agentic AI automatizira znanstveni workflow s 83 % točnosti, 92 % manje data transfera i $0.001 po upitu
Bartosz Balis i suradnici s AGH University u Krakovu objavili su 23. travnja 2026. paper koji pretvara prirodnojezične istraživačke upite u izvršne znanstvene workflowove. Trolayer arhitektura (semantički LLM sloj, deterministički generator, expert Skills) testirana je na 1000 Genomes workflowu na Kubernetesu — Skills su podigli intent accuracy s 44 % na 83 %, smanjili data transfer za 92 % uz cijenu ispod $0.001 po upitu.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Tim s AGH University of Science and Technology u Krakovu (Bartosz Balis, Michal Orzechowski, Piotr Kica, Michal Dygas i Michal Kuszewski) objavio je 23. travnja 2026. paper “From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation” (arXiv:2604.21910). Rad se nadovezuje na sve značajniji “AI Scientist” trend — pokušaj autonomne automatizacije znanstvenog procesa od pitanja do rezultata.
Što je problem koji paper rješava?
Postojeći scientific workflow sustavi (Pegasus, Nextflow, Snakemake, Hyperflow) automatiziraju izvršavanje workflowova — scheduling, fault tolerance, resource management. Ali ne automatiziraju semantičku translaciju koja prethodi izvršavanju: znanstvenik mora ručno pretvoriti svoje pitanje (npr. “što je najčešća varijanta gena BRCA1 u europskoj populaciji?”) u formalnu workflow specifikaciju s konkretnim alatima, parametrima i ulaznim podacima. Ovaj korak zahtijeva i domensko znanje (genetika) i infrastrukturno znanje (Kubernetes, container registry, data formats).
Kako radi predložena arhitektura?
Autori predlažu trolayer dizajn koji “confines LLM non-determinism to intent extraction”:
- Semantički sloj — LLM tumači prirodni jezik u strukturirane intente. Ovaj sloj je vjerojatnostan i može griješiti.
- Deterministički sloj — validirani generatori pretvaraju strukturirane intente u reproducibilne workflow DAG-ove. Identičan intent uvijek daje identičan workflow.
- Knowledge sloj — domenski stručnjaci pišu “Skills” — markdown dokumente koji kodiraju mapiranja vokabulara (npr. “BRCA1 → ENSG00000012048”), ograničenja parametara i strategije optimizacije.
Kombinacija znači da je nedeterministički LLM zatvoren u jasno definiran prostor (intent extraction), a sve daljnje transformacije su matematički predvidljive — što je presudno za znanstvenu reproducibilnost.
Koji su konkretni rezultati?
Autori implementiraju i evaluiraju arhitekturu na 1000 Genomes population genetics workflowu i Hyperflow WMS platformi koja radi na Kubernetesu. U ablation studiji na 150 upita:
- Intent accuracy raste s 44 % na 83 % kad se Skills uključe
- Data transfer se smanjuje za 92 % zahvaljujući skill-driven deferred workflow generation
- LLM overhead ispod 15 sekundi end-to-end
- Cijena ispod $0.001 po upitu
Posljednje dvije brojke su komercijalno najzanimljivije — sustav je dovoljno brz i jeftin za realan produkcijski deployment u istraživačkim laboratorijima.
Ograničenja i sljedeći koraci
Rad ne tvrdi da AI može zamijeniti znanstvenika u formuliranju zanimljivih pitanja niti u interpretaciji rezultata. Fokus je na mehaničkom dijelu workflowa — onome što danas oduzima dane manualnog rada. Skills su ručno pisani od strane domenskih stručnjaka, što znači da skalabilnost ovisi o spremnosti zajednice da kontribuira. Sljedeći logičan korak bila bi automatska generacija Skills iz znanstvene literature — što bi otvorilo put fully bootstrapped AI Scientist sustavima.
Česta pitanja
- Što je 'AI Scientist' trend?
- Pravac istraživanja u kojem agentic AI sustavi automatiziraju cijeli znanstveni proces — od formulacije pitanja, preko dizajna eksperimenta, do izvršavanja workflowova i interpretacije rezultata. Cilj je smanjiti vrijeme od ideje do publikacije.
- Što su 'Skills' u kontekstu rada?
- Skills su markdown dokumenti koje pišu domenski stručnjaci, a koji kodiraju mapiranja pojmova, ograničenja parametara i strategije optimizacije. LLM ih koristi pri prevođenju prirodnog jezika u workflow specifikaciju. Bez Skills accuracy je 44 %, sa Skills 83 %.
- Koje su praktične implikacije za biomedicinu?
- Sustav je testiran na 1000 Genomes workflowu — referentnoj population genetics analizi. Rezultati pokazuju da se LLM overhead drži ispod 15 sekundi, a cijena pod $0.001 po upitu, što čini realnim deployment u biomedicinskim istraživačkim okruženjima.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije