🤖 24 AI
🟢 🤝 Agenti četvrtak, 23. travnja 2026. · 3 min čitanja

ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji

Editorial illustration: AI agent — agenti

Zašto je bitno

Na ArXivu je objavljen SWE-chat, dataset stvarnih takozvanih in-the-wild interakcija korisnika s AI coding agentima u produkcijskom okruženju. Umjesto još jednog sintetičkog benchmarka na bazi GitHub issue-a, ovaj dataset bilježi kako developeri zaista koriste autonomne sustave dok rade svakodnevni posao — što traže, kako reagiraju na agentove prijedloge i gdje agent zakaže — otvarajući vrata preciznijoj evaluaciji i ciljanim poboljšanjima u dizajnu agenata.

Problem sa sintetičkim benchmarkovima

Posljednje dvije godine razvoja AI coding agenata uglavnom su se oslanjale na sintetičke benchmarkove poput SWE-benchta, HumanEvala i njihovih varijanti. Ti benchmarkovi obično uzimaju povijesne GitHub issue-e ili pažljivo pripremljene programerske zadatke i mjere je li agent u stanju proizvesti rješenje koje prolazi testove. Problem je što takvi testovi ne odražavaju kako developeri stvarno rade s agentom — ne bilježe nejasne upute, polovične kontekste, međukorake u razgovoru ni situacije u kojima korisnik mijenja mišljenje sredinom zadatka.

SWE-chat, nedavno objavljen dataset na ArXivu, pokušava popuniti upravo tu prazninu. Autori opisuju skup podataka kao kolekciju stvarnih in-the-wild interakcija korisnika s AI coding agentima u produkcijskom okruženju. Umjesto pažljivo odabranih primjera, dataset sadrži prirodne razgovore developera koji koriste autonomni sustav da rješavaju svoje svakodnevne zadatke — ispravljaju greške, refaktoriraju module, pišu testove ili traže pomoć oko konfiguracije.

Što dataset bilježi

Prema objavi na ArXivu, SWE-chat daje uvid u to kako developeri zaista koriste autonomne sustave u praksi. To uključuje tipične formulacije upita, načine na koje korisnici reagiraju na agentove prijedloge, reakcije na pogrešne ili polovično točne odgovore, kao i trenutke u kojima razgovor prerasta u višekoraknu iteraciju. Takvi podaci teško se rekonstruiraju iz laboratorijskih uvjeta jer zahtijevaju pravu produkcijsku upotrebu i kooperativne korisnike koji dopuštaju snimanje razgovora za istraživačke svrhe.

Dataset tako otvara vrata analizama koje su do sada bile izvan dosega akademske zajednice. Istraživači mogu gledati kako se mijenja kvaliteta razgovora kroz vrijeme, kakve strategije korisnici razvijaju s iskustvom, kada odustaju od agenta i prelaze na ručni rad, te koje tipove zadataka agent pouzdano rješava a gdje redovito zakazuje. Za timove koji razvijaju vlastite agente, SWE-chat postaje realistična testna podloga za regresijske evaluacije novih verzija.

Implikacije za razvoj agenata i evaluaciju

Najvažnija implikacija SWE-chat datasetta je pomak od sintetičke prema ekološkoj valjanosti evaluacije. Dok sintetički benchmarkovi mjere je li agent tehnički sposoban riješiti problem, SWE-chat mjeri je li ga sposoban riješiti u uvjetima u kojima se sustav stvarno koristi — s nepotpunim informacijama, promjenjivim uputama i ljudskim povratnim informacijama. To je bliže stvarnoj mjeri korisnosti nego bilo koji prethodni benchmark.

Za zajednicu developera AI coding alata dataset je dragocjen jer omogućuje targetirano poboljšanje slabih točaka. Ako analiza SWE-chat-a pokaže da agenti redovito zakazuju u traženju dodatnog konteksta od korisnika, to postaje jasan razvojni prioritet. Ako se pokaže da korisnici najčešće odustaju kada agent pogrešno razumije namjeru zadatka, timovi mogu uložiti u bolje razumijevanje uputa. Umjesto da razvoj slijedi brojke na sintetičkim testovima koji ne odražavaju realnost, moguće je voditi ga prema stvarnim podacima o ponašanju korisnika i agenata u produkciji.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.