Što je interaktivno strojno zaboravljanje?

To je mogućnost da korisnik putem prirodnog jezika naloži AI modelu da zaboravi specifične informacije — poput osobnih podataka ili štetnog znanja — bez potrebe za ponovnim treniranjem cijelog modela.

Kako STAMP metoda funkcionira?

STAMP (Steering Through Activation Manipulation with PseudoInverse) preusmjerava aktivacije MLP slojeva prema refusal subprostoru korištenjem zatvorene formule pseudoinverza, bez ikakvog treniranja.

Zašto je RePAIR važan za privatnost i regulativu?

Omogućuje brisanje osobnih podataka iz modela po zahtjevu korisnika (pravo na zaborav iz GDPR-a) i uklanjanje štetnog znanja bez skupog ponovnog treniranja.

ArXiv: RePAIR omogućuje LLM-ovima da 'zaborave' ciljane informacije bez ponovnog treninga

Istraživački tim predvođen Jagadeeshom Rachapudijem predstavio je RePAIR — framework koji uvodi koncept interaktivnog strojnog zaboravljanja (Interactive Machine Unlearning, IMU). Sustav omogućuje korisnicima da kroz natural language promptove naredbe LLM-u da zaboravi ciljane informacije, i to u stvarnom vremenu bez ponovnog treniranja.

Kako funkcionira sustav tri modela?

RePAIR koristi arhitekturu s tri specijalizirane komponente. Watchdog model djeluje kao čuvar — detektira kada korisnikov prompt sadrži zahtjev za zaboravljanje specifičnih informacija. Surgeon model generira precizne instrukcije za “popravak” — definira koje aktivacije u neuralnoj mreži treba preusmjeriti. Patient model — sam LLM koji se koristi — autonomno provodi te popravke.

Ova trodijelna arhitektura znači da korisnik jednostavno kaže nešto poput “zaboravi sve o osobi X” ili “ukloni znanje o procesu Y”, a sustav automatski identificira, lokalizira i neutralizira relevantne informacije u modelu.

Što je STAMP i zašto je ključna inovacija?

STAMP (Steering Through Activation Manipulation with PseudoInverse) je jezgra RePAIR-a. Metoda preusmjerava aktivacije MLP (Multi-Layer Perceptron) slojeva prema refusal subprostoru — dijelu prostora aktivacija koji odgovara odbijanju odgovora — korištenjem zatvorene formule pseudoinverza.

Ključno je da STAMP ne zahtijeva nikakvo treniranje. Promjene se računaju analitički, što znači da se zaboravljanje provodi u sekundi umjesto u satima ili danima koliko zahtijeva re-trening. Rezultati pokazuju gotovo nulte ocjene zaboravljanja (informacija je stvarno uklonjena) uz očuvanje ukupne korisnosti modela — model nastavlja normalno raditi za sve ostale zadatke.

Zašto je ovo važno za regulativu i privatnost?

RePAIR adresira tri konkretna scenarija: suzbijanje štetnog znanja (primjerice, uputstava za izradu opasnih tvari), ispravljanje dezinformacija (uklanjanje netočnih činjenica koje je model naučio) i brisanje osobnih podataka na zahtjev korisnika.

Posljednji scenarij posebno je relevantan u kontekstu europskog GDPR-a i prava na zaborav (Right to Erasure). Dosad je uklanjanje specifičnih podataka iz treniranog modela zahtijevalo skupo i dugotrajno ponovno treniranje. RePAIR nudi praktičnu alternativu — zaboravljanje na zahtjev, u stvarnom vremenu, bez degradacije performansi.

Rezultati na više benchmarkova pokazuju da RePAIR nadmašuje šest postojećih najmodernijih metoda za machine unlearning, nudeći bolji omjer između potpunosti zaboravljanja i očuvanja korisnih sposobnosti modela.

ArXiv: RePAIR omogućuje LLM-ovima da 'zaborave' ciljane informacije bez ponovnog treninga

Kako funkcionira sustav tri modela?

Što je STAMP i zašto je ključna inovacija?

Zašto je ovo važno za regulativu i privatnost?

Izvori

Povezane vijesti