arXiv:2604.21910: agentic AI radi znanstveni workflow za $0.001

Bartosz Balis i suradnici s AGH University u Krakovu objavili su 23. travnja 2026. paper koji pretvara prirodnojezične istraživačke upite u izvršne znanstvene workflowove. Trolayer arhitektura (semantički LLM sloj, deterministički generator, expert Skills) testirana je na 1000 Genomes workflowu na Kubernetesu — Skills su podigli intent accuracy s 44 % na 83 %, smanjili data transfer za 92 % uz cijenu ispod $0.001 po upitu.

Tim s AGH University of Science and Technology u Krakovu (Bartosz Balis, Michal Orzechowski, Piotr Kica, Michal Dygas i Michal Kuszewski) objavio je 23. travnja 2026. paper “From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation” (arXiv:2604.21910). Rad se nadovezuje na sve značajniji “AI Scientist” trend — pokušaj autonomne automatizacije znanstvenog procesa od pitanja do rezultata.

Što je problem koji paper rješava?

Postojeći scientific workflow sustavi (Pegasus, Nextflow, Snakemake, Hyperflow) automatiziraju izvršavanje workflowova — scheduling, fault tolerance, resource management. Ali ne automatiziraju semantičku translaciju koja prethodi izvršavanju: znanstvenik mora ručno pretvoriti svoje pitanje (npr. “što je najčešća varijanta gena BRCA1 u europskoj populaciji?”) u formalnu workflow specifikaciju s konkretnim alatima, parametrima i ulaznim podacima. Ovaj korak zahtijeva i domensko znanje (genetika) i infrastrukturno znanje (Kubernetes, container registry, data formats).

Kako radi predložena arhitektura?

Autori predlažu trolayer dizajn koji “confines LLM non-determinism to intent extraction”:

Semantički sloj — LLM tumači prirodni jezik u strukturirane intente. Ovaj sloj je vjerojatnostan i može griješiti.
Deterministički sloj — validirani generatori pretvaraju strukturirane intente u reproducibilne workflow DAG-ove. Identičan intent uvijek daje identičan workflow.
Knowledge sloj — domenski stručnjaci pišu “Skills” — markdown dokumente koji kodiraju mapiranja vokabulara (npr. “BRCA1 → ENSG00000012048”), ograničenja parametara i strategije optimizacije.

Kombinacija znači da je nedeterministički LLM zatvoren u jasno definiran prostor (intent extraction), a sve daljnje transformacije su matematički predvidljive — što je presudno za znanstvenu reproducibilnost.

Koji su konkretni rezultati?

Autori implementiraju i evaluiraju arhitekturu na 1000 Genomes population genetics workflowu i Hyperflow WMS platformi koja radi na Kubernetesu. U ablation studiji na 150 upita:

Intent accuracy raste s 44 % na 83 % kad se Skills uključe
Data transfer se smanjuje za 92 % zahvaljujući skill-driven deferred workflow generation
LLM overhead ispod 15 sekundi end-to-end
Cijena ispod $0.001 po upitu

Posljednje dvije brojke su komercijalno najzanimljivije — sustav je dovoljno brz i jeftin za realan produkcijski deployment u istraživačkim laboratorijima.

Ograničenja i sljedeći koraci

Rad ne tvrdi da AI može zamijeniti znanstvenika u formuliranju zanimljivih pitanja niti u interpretaciji rezultata. Fokus je na mehaničkom dijelu workflowa — onome što danas oduzima dane manualnog rada. Skills su ručno pisani od strane domenskih stručnjaka, što znači da skalabilnost ovisi o spremnosti zajednice da kontribuira. Sljedeći logičan korak bila bi automatska generacija Skills iz znanstvene literature — što bi otvorilo put fully bootstrapped AI Scientist sustavima.

Česta pitanja

Što je 'AI Scientist' trend?

Pravac istraživanja u kojem agentic AI sustavi automatiziraju cijeli znanstveni proces — od formulacije pitanja, preko dizajna eksperimenta, do izvršavanja workflowova i interpretacije rezultata. Cilj je smanjiti vrijeme od ideje do publikacije.

Što su 'Skills' u kontekstu rada?

Skills su markdown dokumenti koje pišu domenski stručnjaci, a koji kodiraju mapiranja pojmova, ograničenja parametara i strategije optimizacije. LLM ih koristi pri prevođenju prirodnog jezika u workflow specifikaciju. Bez Skills accuracy je 44 %, sa Skills 83 %.

Koje su praktične implikacije za biomedicinu?

Sustav je testiran na 1000 Genomes workflowu — referentnoj population genetics analizi. Rezultati pokazuju da se LLM overhead drži ispod 15 sekundi, a cijena pod $0.001 po upitu, što čini realnim deployment u biomedicinskim istraživačkim okruženjima.

arXiv:2604.21910: agentic AI automatizira znanstveni workflow s 83 % točnosti, 92 % manje data transfera i $0.001 po upitu

Što je problem koji paper rješava?

Kako radi predložena arhitektura?

Koji su konkretni rezultati?

Ograničenja i sljedeći koraci

Česta pitanja

Izvori

Povezane vijesti