ArXiv: RePAIR omogućuje LLM-ovima da 'zaborave' ciljane informacije bez ponovnog treninga
Zašto je bitno
RePAIR je novi framework za interaktivno strojno zaboravljanje (machine unlearning) koji omogućuje korisnicima da putem natural language promptova naredbe velikim jezičnim modelima da zaborave specifične informacije u stvarnom vremenu. Ključna inovacija STAMP metoda preusmjerava MLP aktivacije prema refusal subprostoru zatvorenom formulom, bez potrebe za ponovnim treniranjem modela, postižući gotovo nulte rezultate zaboravljanja uz očuvanje korisnosti modela.
Istraživački tim predvođen Jagadeeshom Rachapudijem predstavio je RePAIR — framework koji uvodi koncept interaktivnog strojnog zaboravljanja (Interactive Machine Unlearning, IMU). Sustav omogućuje korisnicima da kroz natural language promptove naredbe LLM-u da zaboravi ciljane informacije, i to u stvarnom vremenu bez ponovnog treniranja.
Kako funkcionira sustav tri modela?
RePAIR koristi arhitekturu s tri specijalizirane komponente. Watchdog model djeluje kao čuvar — detektira kada korisnikov prompt sadrži zahtjev za zaboravljanje specifičnih informacija. Surgeon model generira precizne instrukcije za “popravak” — definira koje aktivacije u neuralnoj mreži treba preusmjeriti. Patient model — sam LLM koji se koristi — autonomno provodi te popravke.
Ova trodijelna arhitektura znači da korisnik jednostavno kaže nešto poput “zaboravi sve o osobi X” ili “ukloni znanje o procesu Y”, a sustav automatski identificira, lokalizira i neutralizira relevantne informacije u modelu.
Što je STAMP i zašto je ključna inovacija?
STAMP (Steering Through Activation Manipulation with PseudoInverse) je jezgra RePAIR-a. Metoda preusmjerava aktivacije MLP (Multi-Layer Perceptron) slojeva prema refusal subprostoru — dijelu prostora aktivacija koji odgovara odbijanju odgovora — korištenjem zatvorene formule pseudoinverza.
Ključno je da STAMP ne zahtijeva nikakvo treniranje. Promjene se računaju analitički, što znači da se zaboravljanje provodi u sekundi umjesto u satima ili danima koliko zahtijeva re-trening. Rezultati pokazuju gotovo nulte ocjene zaboravljanja (informacija je stvarno uklonjena) uz očuvanje ukupne korisnosti modela — model nastavlja normalno raditi za sve ostale zadatke.
Zašto je ovo važno za regulativu i privatnost?
RePAIR adresira tri konkretna scenarija: suzbijanje štetnog znanja (primjerice, uputstava za izradu opasnih tvari), ispravljanje dezinformacija (uklanjanje netočnih činjenica koje je model naučio) i brisanje osobnih podataka na zahtjev korisnika.
Posljednji scenarij posebno je relevantan u kontekstu europskog GDPR-a i prava na zaborav (Right to Erasure). Dosad je uklanjanje specifičnih podataka iz treniranog modela zahtijevalo skupo i dugotrajno ponovno treniranje. RePAIR nudi praktičnu alternativu — zaboravljanje na zahtjev, u stvarnom vremenu, bez degradacije performansi.
Rezultati na više benchmarkova pokazuju da RePAIR nadmašuje šest postojećih najmodernijih metoda za machine unlearning, nudeći bolji omjer između potpunosti zaboravljanja i očuvanja korisnih sposobnosti modela.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
OpenAI nudi 25.000 dolara za pronalazak univerzalnih jailbreakova biološke sigurnosti GPT-5.5
GPT-5.5 System Card: OpenAI objavljuje sigurnosne evaluacije i procjenu rizika novog modela
OpenAI objavio Privacy Filter: open-weight model za detekciju i redakciju osobnih podataka