SAGO: Nova metoda machine unlearninga vraća MMLU s 44,6 % na 96 % bez gubitka forgettinga, prihvaćena na ACL 2026
SAGO je gradient synthesis framework koji preformulira machine unlearning kao asimetrični problem s dvije zadaće — zadržavanje znanja kao primarni cilj i zaboravljanje kao pomoćni. Na WMDP Bio benchmarku podiže MMLU s baseline 44,6 % preko PCGrad 94 % do 96 % uz usporedivi forgetting score, čime rješava glavni problem dosadašnjih unlearning metoda koje su previše uništavale korisno znanje modela.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što SAGO zapravo rješava?
Machine unlearning (strojno zaboravljanje) je tehnika kojom se iz već treniranog jezičnog modela uklanja specifično znanje — primjerice, opasne biološke procedure ili osobni podaci pojedinca — bez potpunog ponovnog treniranja. Problem je što dosadašnje metode zaboravljaju preširoko: uklanjajući ciljano znanje, istovremeno uništavaju modelovu opću inteligenciju.
SAGO (Sign-constrained Asymmetric Gradient Optimization) je novi framework koji preformulira problem kao asimetrični problem s dvije zadaće:
- Primarna zadaća: Zadržavanje postojećeg znanja
- Pomoćna zadaća: Zaboravljanje ciljanog sadržaja
Razlika nije kozmetička — SAGO koristi gradient synthesis (sintezu gradijenata) kombinirajući PCGrad pristup s sign-constrained logikom koja prioritizira retenciju. U praksi to znači da kad su gradijenti dviju zadaća u konfliktu, SAGO nagibnje na stranu retencije — jer primarni cilj nije zaboraviti, nego zadržati opću kompetenciju modela dok se specifično znanje uklanja.
Kolika je razlika u brojevima?
Na WMDP (Weapons of Mass Destruction Proxy) Bio benchmarku — standardnom testu koji mjeri koliko je model “zaboravio” opasna biološka znanja — SAGO postiže sljedeće:
| Metoda | MMLU score | Forgetting |
|---|---|---|
| Baseline (nakon standardnog unlearninga) | 44,6 % | — |
| PCGrad (prethodni SOTA) | 94,0 % | usporedivo |
| SAGO (novi rezultat) | 96,0 % | usporedivo |
MMLU (Massive Multitask Language Understanding) je glavni benchmark opće jezične inteligencije. Pad s ~75 % pre-trained razine na 44,6 % nakon standardnog unlearninga znači da je model izgubio veliki dio svog korisnog znanja. SAGO vraća rezultat na 96 %, praktički bez gubitka, uz zadržano zaboravljanje ciljanog WMDP Bio sadržaja.
Zašto je ovo značajno za sigurnost modela?
Unlearning je postao ključna komponenta odgovorne AI distribucije — regulatori (EU AI Act, GDPR) i korisnici traže od operatora modela da mogu ukloniti specifično znanje na zahtjev. Ako metoda uništava opću kompetenciju, operatorima ostaje samo binarni izbor: ili drže model takav kakav je, ili ga moraju retrenirati od nule.
SAGO dokazuje da je moguće imati oboje — precizan zaborav i očuvano znanje — uz postojeće metode koje su dostupne svima koji već imaju pristup trained modelu.
Peer review status
Rad je prihvaćen na ACL 2026 (Annual Meeting of the Association for Computational Linguistics), jednu od top NLP konferencija. To znači da je prošao peer review — što je značajan signal kvalitete i pouzdanosti rezultata. Autori (sedmočlani tim, vodeći Xiao) nisu objavili kod u preprintu, ali ACL tradicionalno zahtijeva release koda uz publikaciju.
Česta pitanja
- Što je machine unlearning?
- Machine unlearning je proces selektivnog uklanjanja znanja iz već treniranog modela — npr. specifičnih zapamćenih osobnih podataka ili opasnih sposobnosti — bez potpunog ponovnog treniranja.
- Zašto je MMLU 44,6 % problem?
- Standardne unlearning metode uništavaju i opće znanje modela, pa MMLU (opći benchmark) dramatično pada. SAGO pokazuje da se forgetting može postići uz zadržavanje opće kompetencije.
Povezane vijesti
Anthropic: Project Glasswing pronašao 10.000 visokorizičnih ranjivosti u prvom mjesecu rada s Claude Mythos Preview
arXiv:2605.22786: LCGuard štiti dijeljeni KV cache između agenata u multi-agent sustavima od curenja podataka
GitHub: npm 11.15.0 uvodi staged publishing i tri nova install-time --allow flaga za supply chain hardening