ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji
Zašto je bitno
Na ArXivu je objavljen SWE-chat, dataset stvarnih takozvanih in-the-wild interakcija korisnika s AI coding agentima u produkcijskom okruženju. Umjesto još jednog sintetičkog benchmarka na bazi GitHub issue-a, ovaj dataset bilježi kako developeri zaista koriste autonomne sustave dok rade svakodnevni posao — što traže, kako reagiraju na agentove prijedloge i gdje agent zakaže — otvarajući vrata preciznijoj evaluaciji i ciljanim poboljšanjima u dizajnu agenata.
Problem sa sintetičkim benchmarkovima
Posljednje dvije godine razvoja AI coding agenata uglavnom su se oslanjale na sintetičke benchmarkove poput SWE-benchta, HumanEvala i njihovih varijanti. Ti benchmarkovi obično uzimaju povijesne GitHub issue-e ili pažljivo pripremljene programerske zadatke i mjere je li agent u stanju proizvesti rješenje koje prolazi testove. Problem je što takvi testovi ne odražavaju kako developeri stvarno rade s agentom — ne bilježe nejasne upute, polovične kontekste, međukorake u razgovoru ni situacije u kojima korisnik mijenja mišljenje sredinom zadatka.
SWE-chat, nedavno objavljen dataset na ArXivu, pokušava popuniti upravo tu prazninu. Autori opisuju skup podataka kao kolekciju stvarnih in-the-wild interakcija korisnika s AI coding agentima u produkcijskom okruženju. Umjesto pažljivo odabranih primjera, dataset sadrži prirodne razgovore developera koji koriste autonomni sustav da rješavaju svoje svakodnevne zadatke — ispravljaju greške, refaktoriraju module, pišu testove ili traže pomoć oko konfiguracije.
Što dataset bilježi
Prema objavi na ArXivu, SWE-chat daje uvid u to kako developeri zaista koriste autonomne sustave u praksi. To uključuje tipične formulacije upita, načine na koje korisnici reagiraju na agentove prijedloge, reakcije na pogrešne ili polovično točne odgovore, kao i trenutke u kojima razgovor prerasta u višekoraknu iteraciju. Takvi podaci teško se rekonstruiraju iz laboratorijskih uvjeta jer zahtijevaju pravu produkcijsku upotrebu i kooperativne korisnike koji dopuštaju snimanje razgovora za istraživačke svrhe.
Dataset tako otvara vrata analizama koje su do sada bile izvan dosega akademske zajednice. Istraživači mogu gledati kako se mijenja kvaliteta razgovora kroz vrijeme, kakve strategije korisnici razvijaju s iskustvom, kada odustaju od agenta i prelaze na ručni rad, te koje tipove zadataka agent pouzdano rješava a gdje redovito zakazuje. Za timove koji razvijaju vlastite agente, SWE-chat postaje realistična testna podloga za regresijske evaluacije novih verzija.
Implikacije za razvoj agenata i evaluaciju
Najvažnija implikacija SWE-chat datasetta je pomak od sintetičke prema ekološkoj valjanosti evaluacije. Dok sintetički benchmarkovi mjere je li agent tehnički sposoban riješiti problem, SWE-chat mjeri je li ga sposoban riješiti u uvjetima u kojima se sustav stvarno koristi — s nepotpunim informacijama, promjenjivim uputama i ljudskim povratnim informacijama. To je bliže stvarnoj mjeri korisnosti nego bilo koji prethodni benchmark.
Za zajednicu developera AI coding alata dataset je dragocjen jer omogućuje targetirano poboljšanje slabih točaka. Ako analiza SWE-chat-a pokaže da agenti redovito zakazuju u traženju dodatnog konteksta od korisnika, to postaje jasan razvojni prioritet. Ako se pokaže da korisnici najčešće odustaju kada agent pogrešno razumije namjeru zadatka, timovi mogu uložiti u bolje razumijevanje uputa. Umjesto da razvoj slijedi brojke na sintetičkim testovima koji ne odražavaju realnost, moguće je voditi ga prema stvarnim podacima o ponašanju korisnika i agenata u produkciji.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Izvori
Povezane vijesti
Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija
GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda
AWS objavio arhitekturu za memoriju AI agenata na razini cijele tvrtke kroz Bedrock, Neptune i Mem0