🤖 24 AI
🟡 🛡️ Sigurnost nedjelja, 19. travnja 2026. · 2 min čitanja

SAGO: Nova metoda machine unlearninga vraća MMLU s 44,6 % na 96 % bez gubitka forgettinga, prihvaćena na ACL 2026

Editorial ilustracija: selektivno uklanjanje dijelova memorije, zaštitni sloj oko neuronske mreže

Zašto je bitno

SAGO je gradient synthesis framework koji preformulira machine unlearning kao asimetrični problem s dvije zadaće — zadržavanje znanja kao primarni cilj i zaboravljanje kao pomoćni. Na WMDP Bio benchmarku podiže MMLU s baseline 44,6 % preko PCGrad 94 % do 96 % uz usporedivi forgetting score, čime rješava glavni problem dosadašnjih unlearning metoda koje su previše uništavale korisno znanje modela.

Što SAGO zapravo rješava?

Machine unlearning (strojno zaboravljanje) je tehnika kojom se iz već treniranog jezičnog modela uklanja specifično znanje — primjerice, opasne biološke procedure ili osobni podaci pojedinca — bez potpunog ponovnog treniranja. Problem je što dosadašnje metode zaboravljaju preširoko: uklanjajući ciljano znanje, istovremeno uništavaju modelovu opću inteligenciju.

SAGO (Sign-constrained Asymmetric Gradient Optimization) je novi framework koji preformulira problem kao asimetrični problem s dvije zadaće:

  • Primarna zadaća: Zadržavanje postojećeg znanja
  • Pomoćna zadaća: Zaboravljanje ciljanog sadržaja

Razlika nije kozmetička — SAGO koristi gradient synthesis (sintezu gradijenata) kombinirajući PCGrad pristup s sign-constrained logikom koja prioritizira retenciju. U praksi to znači da kad su gradijenti dviju zadaća u konfliktu, SAGO nagibnje na stranu retencije — jer primarni cilj nije zaboraviti, nego zadržati opću kompetenciju modela dok se specifično znanje uklanja.

Kolika je razlika u brojevima?

Na WMDP (Weapons of Mass Destruction Proxy) Bio benchmarku — standardnom testu koji mjeri koliko je model “zaboravio” opasna biološka znanja — SAGO postiže sljedeće:

MetodaMMLU scoreForgetting
Baseline (nakon standardnog unlearninga)44,6 %
PCGrad (prethodni SOTA)94,0 %usporedivo
SAGO (novi rezultat)96,0 %usporedivo

MMLU (Massive Multitask Language Understanding) je glavni benchmark opće jezične inteligencije. Pad s ~75 % pre-trained razine na 44,6 % nakon standardnog unlearninga znači da je model izgubio veliki dio svog korisnog znanja. SAGO vraća rezultat na 96 %, praktički bez gubitka, uz zadržano zaboravljanje ciljanog WMDP Bio sadržaja.

Zašto je ovo značajno za sigurnost modela?

Unlearning je postao ključna komponenta odgovorne AI distribucije — regulatori (EU AI Act, GDPR) i korisnici traže od operatora modela da mogu ukloniti specifično znanje na zahtjev. Ako metoda uništava opću kompetenciju, operatorima ostaje samo binarni izbor: ili drže model takav kakav je, ili ga moraju retrenirati od nule.

SAGO dokazuje da je moguće imati oboje — precizan zaborav i očuvano znanje — uz postojeće metode koje su dostupne svima koji već imaju pristup trained modelu.

Peer review status

Rad je prihvaćen na ACL 2026 (Annual Meeting of the Association for Computational Linguistics), jednu od top NLP konferencija. To znači da je prošao peer review — što je značajan signal kvalitete i pouzdanosti rezultata. Autori (sedmočlani tim, vodeći Xiao) nisu objavili kod u preprintu, ali ACL tradicionalno zahtijeva release koda uz publikaciju.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.