MSR: 1 000 sintetičkih računala za long-horizon agente

Microsoft Research predstavlja metodologiju za generiranje 1 000 realističnih sintetičkih računalnih okruženja s autentičnim folder hijerarhijama i dokumentima. Dva agenta surađuju u svakom okruženju — jedan stvara produktivne ciljeve specifične za korisnički profil, drugi ih izvršava kroz sekvence koje u prosjeku traju 2 000+ poteza i 8+ sati rada agenta. Autori tvrde da pristup može skalirati na milijarde sintetičkih svjetova i predstavlja temeljni supstrat za samo-poboljšanje agenata.

Istraživači Microsoft Research-a (Tao Ge, Baolin Peng, Hao Cheng, Jianfeng Gao) predstavili su metodologiju za generiranje realističnih sintetičkih računalnih okruženja koja simuliraju produktivne radne tijekove izvan dosega postojećih agent benchmarka. Cilj rada je infrastrukturni — osigurati supstrat na kojem se long-horizon agenti mogu trenirati i evaluirati u skali koja prelazi ručno kurirane skupove.

Što su točno “sintetička računala”?

Svako sintetičko računalo sadrži autentičnu folder hijerarhiju s dokumentima i artefaktima koji oponaša stvarno radno okruženje — ne sterilni sandbox, već datotečni sustav s kontekstualno povezanim sadržajem. Dva agenta surađuju unutar tog prostora:

Generator stvara produktivne ciljeve specifične za korisnički profil okruženja, zadatke koji “zahtijevaju više profesionalnih deliverables i otprilike mjesec dana ljudskog rada”.
Izvršitelj preuzima ulogu korisnika i radi kroz računalo — navigira datotekama, kreira nove artefakte i konzistentno izvršava zadatke kroz dugo vremensko razdoblje.

Koje su brojke?

Tri metričke veličine određuju okvir rada:

1 000 sintetičkih računala generirano u okviru rada
Prosječno preko 2 000 poteza po simulaciji
Više od 8 sati rada agenta za dovršenje jedne simulacije

Ovo je značajno odmak od prethodnih agent benchmarka tipa SWE-Bench, GAIA ili AgentBench, gdje pojedinačni zadaci rijetko prelaze nekoliko desetaka koraka. Long-horizon dimenzija je ključna — autori pokušavaju ciljati klasu agenata koji mogu autonomno raditi sate bez ljudske intervencije.

Koliko se može skalirati?

Glavna teza rada je infrastrukturna skalabilnost. Autori tvrde da metodologija “u principu može skalirati na milijune ili milijarde sintetičkih korisničkih svjetova uz dovoljne računalne resurse”. Time bi se pokrila diverzija profesija i konteksta — od inženjerskih radnih tijekova preko marketinških planova do administrativnih zadataka — što je preduvjet za treniranje agenata koji generaliziraju izvan uskog skupa zadataka iz developerskog sandbox-a.

Autori pozicioniraju rad kao “temeljni supstrat za samo-poboljšanje agenata” — agente koji mogu generirati vlastite trening podatke unutar simuliranih svjetova i ispravljati se na temelju vlastitih grešaka. Ako se pristup pokaže reproducibilnim, ovo bi moglo biti jedna od ključnih komponenti sljedeće generacije produktivnih AI sustava: ne samo bolji modeli, već proceduralna ekonomija sintetičkog iskustva kojom se modeli treniraju.

Česta pitanja

Što su sintetička računala u ovom radu?

Realistična simulirana računarska okruženja s autentičnim folder hijerarhijama, dokumentima i artefaktima. Cilj je da AI agenti mogu raditi unutar njih kao da su stvarni korisnici — navigirati datotečnim sustavom, kreirati artefakte i izvršavati produktivne zadatke.

Koliko traju simulacije?

Prosječno preko 2 000 poteza i više od 8 sati rada agenta po simulaciji. To je značajno duže od većine prethodnih agent benchmarka koji ciljaju zadatke do nekoliko desetaka koraka.

Kakvi su scaling planovi?

Autori tvrde da metodologija u principu može skalirati na milijune ili milijarde sintetičkih korisničkih svjetova uz dovoljne računalne resurse, pokrivajući diverzne profesije i kontekste.

Microsoft Research Synthetic Computers: 1 000 sintetičkih računala kao supstrat za long-horizon trening produktivnih AI agenata

Što su točno “sintetička računala”?

Koje su brojke?

Koliko se može skalirati?

Česta pitanja

Izvori

Povezane vijesti