SAGO: Nova metoda machine unlearninga vraća MMLU s 44,6 % na 96 % bez gubitka forgettinga, prihvaćena na ACL 2026

SAGO je gradient synthesis framework koji preformulira machine unlearning kao asimetrični problem s dvije zadaće — zadržavanje znanja kao primarni cilj i zaboravljanje kao pomoćni. Na WMDP Bio benchmarku podiže MMLU s baseline 44,6 % preko PCGrad 94 % do 96 % uz usporedivi forgetting score, čime rješava glavni problem dosadašnjih unlearning metoda koje su previše uništavale korisno znanje modela.

Što SAGO zapravo rješava?

Machine unlearning (strojno zaboravljanje) je tehnika kojom se iz već treniranog jezičnog modela uklanja specifično znanje — primjerice, opasne biološke procedure ili osobni podaci pojedinca — bez potpunog ponovnog treniranja. Problem je što dosadašnje metode zaboravljaju preširoko: uklanjajući ciljano znanje, istovremeno uništavaju modelovu opću inteligenciju.

SAGO (Sign-constrained Asymmetric Gradient Optimization) je novi framework koji preformulira problem kao asimetrični problem s dvije zadaće:

Primarna zadaća: Zadržavanje postojećeg znanja
Pomoćna zadaća: Zaboravljanje ciljanog sadržaja

Razlika nije kozmetička — SAGO koristi gradient synthesis (sintezu gradijenata) kombinirajući PCGrad pristup s sign-constrained logikom koja prioritizira retenciju. U praksi to znači da kad su gradijenti dviju zadaća u konfliktu, SAGO nagibnje na stranu retencije — jer primarni cilj nije zaboraviti, nego zadržati opću kompetenciju modela dok se specifično znanje uklanja.

Kolika je razlika u brojevima?

Na WMDP (Weapons of Mass Destruction Proxy) Bio benchmarku — standardnom testu koji mjeri koliko je model “zaboravio” opasna biološka znanja — SAGO postiže sljedeće:

Metoda	MMLU score	Forgetting
Baseline (nakon standardnog unlearninga)	44,6 %	—
PCGrad (prethodni SOTA)	94,0 %	usporedivo
SAGO (novi rezultat)	96,0 %	usporedivo

MMLU (Massive Multitask Language Understanding) je glavni benchmark opće jezične inteligencije. Pad s ~75 % pre-trained razine na 44,6 % nakon standardnog unlearninga znači da je model izgubio veliki dio svog korisnog znanja. SAGO vraća rezultat na 96 %, praktički bez gubitka, uz zadržano zaboravljanje ciljanog WMDP Bio sadržaja.

Zašto je ovo značajno za sigurnost modela?

Unlearning je postao ključna komponenta odgovorne AI distribucije — regulatori (EU AI Act, GDPR) i korisnici traže od operatora modela da mogu ukloniti specifično znanje na zahtjev. Ako metoda uništava opću kompetenciju, operatorima ostaje samo binarni izbor: ili drže model takav kakav je, ili ga moraju retrenirati od nule.

SAGO dokazuje da je moguće imati oboje — precizan zaborav i očuvano znanje — uz postojeće metode koje su dostupne svima koji već imaju pristup trained modelu.

Peer review status

Rad je prihvaćen na ACL 2026 (Annual Meeting of the Association for Computational Linguistics), jednu od top NLP konferencija. To znači da je prošao peer review — što je značajan signal kvalitete i pouzdanosti rezultata. Autori (sedmočlani tim, vodeći Xiao) nisu objavili kod u preprintu, ali ACL tradicionalno zahtijeva release koda uz publikaciju.

Česta pitanja

Što je machine unlearning?

Machine unlearning je proces selektivnog uklanjanja znanja iz već treniranog modela — npr. specifičnih zapamćenih osobnih podataka ili opasnih sposobnosti — bez potpunog ponovnog treniranja.

Zašto je MMLU 44,6 % problem?

Standardne unlearning metode uništavaju i opće znanje modela, pa MMLU (opći benchmark) dramatično pada. SAGO pokazuje da se forgetting može postići uz zadržavanje opće kompetencije.