🟡 🛡️ Sigurnost Objavljeno: · 2 min čitanja ·

arXiv:2605.29068: COLAGUARD prenosi sigurnosno rasuđivanje u latentni prostor — +8,24 F1, 22,4× manje tokena

arXiv:2605.29068 ↗

Urednička ilustracija: COLAGUARD prenosi sigurnosno rasuđivanje u latentni prostor — +8,24 F1, 22,4× manje tokena

COLAGUARD je novi sustav sigurnosnih guardrailsa za velike jezične modele koji sigurnosno rasuđivanje prenosi iz eksplicitnih tekstualnih lanaca misli u kontinuirani latentni prostor, koristeći kurikularno treniranje. Sustav postiže poboljšanje od 8,24 makro-F1 bodova nad Llama Guard 3, uz 22,4× manji broj generiranih tokena i 12,9× brže izvođenje od GuardReasoner baseline-a na osam sigurnosnih dataseta.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Istraživači Siddharth Sai, Xiaofei Wen i Muhao Chen predstavili su COLAGUARD — novi pristup sigurnosnim guardrailsima za velike jezične modele koji rješava temeljnu napetost između sigurnosne robustnosti i računske efikasnosti.

Zašto su postojeći guardrailsi spori ili neprecizni?

Trenutni sigurnosni guardrailsi za LLM-ove (Large Language Models, veliki jezični modeli) dijele se u dvije kategorije: brzi ali manje precizni sustavi kao Llama Guard 3 koji daju kratke klasifikacijske odgovore, i precizniji ali sporiji sustavi kao GuardReasoner koji generiraju eksplicitne višekoračne lance rasuđivanja (chain-of-thought) u tekstualnom obliku.

Problem: eksplicitni reasoning guardrailsi generiraju stotine do tisuće tokena sigurnosnog rasuđivanja za svaki ulaz, što ih čini računski preskupima za produkcijsku primjenu s visokim prometom.

Kako COLAGUARD prenosi rasuđivanje u latentni prostor?

COLAGUARD (Curriculum-based cOntinuous LAtent GUARDrail) rješava ovaj kompromis transferom višekoračnog sigurnosnog rasuđivanja u kontinuirani latentni prostor koristeći kurikularno treniranje (curriculum-based training — postupno povećavanje težine primjera treniranja).

Umjesto generiranja tekstualnih objašnjenja, COLAGUARD propagira skrivena stanja (hidden states) kroz inferencu. Sigurnosno znanje enkodira se kao latentne reprezentacije koje se aktiviraju pri detekciji potencijalno štetnog sadržaja, a rezultiraju izravnom klasifikacijom bez eksplicitnog teksta.

Koji su kvantitativni rezultati na benchmark evaluacijama?

Evaluacija provedena na osam sigurnosnih dataseta koji pokrivaju deset scenarija moderiranja promptova i odgovora pokazala je:

MetrikaCOLAGUARD vs. baseline
Makro-F1 poboljšanje nad Llama Guard 3+8,24 boda
Smanjenje potrošnje tokena vs. GuardReasoner22,4× manje
Ubrzanje inferencije vs. GuardReasoner12,9× brže

Autori naglašavaju da COLAGUARD zadržava usporedivu sigurnosnu pokrivenost uz drastično smanjeni računski teret, demantujući pretpostavku da je visoka preciznost guardrailsa nužno skupa.

Što COLAGUARD znači za produkcijsku primjenu?

COLAGUARD pokazuje da robustnost i efikasnost guardrailsa nisu suprotstavljeni ciljevi. Latentno rasuđivanje (latent reasoning — enkodiranje logičkih koraka u skrivenim aktivacijama modela umjesto eksplicitnih tokena) otvara put prema sigurnosnim sustavima koji mogu pratiti visoki promet LLM produkcije bez značajnog utjecaja na latenciju ili troškove.

Za razvojne timove koji deployaju LLM-ove u kritičnim sustavima, ovaj rad nudi potencijalni put zamjene skupih eksplicitnih reasoning guardrailsa s latentnim alternativama bez gubitka sigurnosne pokrivenosti.

Česta pitanja

Što je COLAGUARD i kako se razlikuje od standardnih guardrailsa poput Llama Guard 3?
COLAGUARD prenosi višekoračno sigurnosno rasuđivanje u kontinuirani latentni prostor kroz kurikularno treniranje. Za razliku od eksplicitnih guardrail modela kao Llama Guard 3 koji generiraju tekstualne objašnjenje, COLAGUARD propagira skrivena stanja (hidden states) bez eksplicitne generacije teksta, što ga čini brže i učinkovitijim.
Koliko je COLAGUARD bolji od postojećih sigurnosnih rješenja za LLM-ove?
COLAGUARD nadmašuje Llama Guard 3 za 8,24 makro-F1 boda, a 22,4× koristi manje tokena i 12,9× je brži od GuardReasoner baseline-a, uz zadržavanje usporedive sigurnosne pokrivenosti na osam evaluacijskih dataseta.
Na kojim scenarijima je evaluiran COLAGUARD?
Evaluacija je provedena na osam sigurnosnih dataseta koji pokrivaju deset različitih scenarija moderiranja — od promptova do odgovora modela. Testovi uključuju usporedbu s Llama Guard 3 i GuardReasoner sustavom.