SIREN: novi pristup LLM sigurnosti koji čita unutarnja stanja modela umjesto filtriranja izlaza
Zašto je bitno
SIREN je novi sigurnosni mehanizam za velike jezične modele koji detektira štetan sadržaj koristeći unutarnja neuronska stanja modela umjesto filtriranja izlaza, s 250 puta manje parametara od postojećih guard modela.
Novi znanstveni rad pod nazivom “LLM Safety From Within: Detecting Harmful Content with Internal Representations”, koji predstavlja sustav SIREN, objavljen je 20. travnja 2026. na ArXiv-u (ID 2604.18519). Autori Difan Jiao, Yilun Liu, Ye Yuan, Zhenwei Tang, Linfeng Du, Haolun Wu i Ashton Anderson predlažu pomak od klasičnog output filtriranja (filtriranje izlaza) prema detekciji iz unutarnjih stanja modela, što bi moglo bitno promijeniti način na koji open-source LLM-ovi implementiraju sigurnost.
Što je output filtriranje i zašto ga SIREN napušta?
Većina današnjih sigurnosnih mehanizama — uključujući Claudea, GPT i Llamu — oslanja se na output filtriranje (filtriranje izlaza). Model proizvede tekst, a zaseban “guard model” (čuvarski model) taj tekst pregleda i odluči hoće li ga pustiti, cenzurirati ili izbaciti refuze poruku. Takvi guard modeli su u pravilu veliki, računski skupi, i reagiraju nakon što je model već uložio trud u generiranje.
SIREN mijenja perspektivu. Umjesto da analizira samo završni token ili konačni output, koristi linearno probiranje (linear probing) za pronalaženje “sigurnosnih neurona” raspršenih kroz više slojeva modela. Riječ je o analizi hidden states (skrivenih stanja) i aktivacija — unutarnjih numeričkih vektora koje model proizvodi dok obrađuje ulaz. Te informacije postoje i prije nego što se izgovori ijedna riječ izlaza, pa SIREN može reagirati ranije i preciznije.
Kako točno radi adaptivna strategija po slojevima?
SIREN primjenjuje adaptivnu layer-weighted strategiju: ne tretira sve slojeve jednako, nego uči koje slojeve više vagati u konačnoj odluci o štetnosti. Linearno probiranje je tehnika gdje se na svakom sloju trenira mali linearni klasifikator koji procjenjuje je li reprezentacija na tom sloju “sigurna” ili “opasna”. Autori pokazuju da su safety-relevantne značajke “raspršene kroz unutarnje slojeve” — dakle, ne nalaze se samo na kraju, nego su rasute po cijelom putu obrade.
Rezultati su impresivni. SIREN “značajno nadmašuje state-of-the-art open-source guard modele” uz 250 puta manje treniranih parametara. Pokazuje i bolju generalizaciju na benchmarkove koje nije vidio tijekom treniranja, što je tradicionalno slaba točka sigurnosnih klasifikatora. Zbog male veličine, inferencija (proces generiranja odgovora) je mnogo brža nego kod generativnih guard modela koji sami moraju “napisati” objašnjenje zašto je nešto štetno.
Za koga je ovo važno i koja su ograničenja?
Glavna prednost s korisničke strane je manje false refuze (pogrešnih odbijanja) — kad model odbije legitiman zahtjev jer ga guard klasificira preoprezno. Jer SIREN čita unutarnja stanja, bolje razlikuje stvarnu namjeru od površinskih okidača (npr. riječ “napad” u kontekstu cybersecurity edukacije neće automatski aktivirati blokadu).
Glavno ograničenje je jasno: SIREN zahtijeva bijeli pristup modelu (white-box access), to jest mogućnost čitanja unutarnjih aktivacija. To ga isključuje iz zatvorenih komercijalnih API-ja poput OpenAI-jevog ili Anthropicovog, gdje su unutarnja stanja nedostupna. S druge strane, upravo to čini SIREN izuzetno atraktivnim za open-source ekosustav (Llama, Qwen, Mistral, DeepSeek), gdje su hidden states potpuno dostupni i gdje razvijači često trebaju jeftinu, lokalnu sigurnosnu infrastrukturu bez slanja sadržaja vanjskim guard servisima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
OpenAI nudi 25.000 dolara za pronalazak univerzalnih jailbreakova biološke sigurnosti GPT-5.5
GPT-5.5 System Card: OpenAI objavljuje sigurnosne evaluacije i procjenu rizika novog modela
OpenAI objavio Privacy Filter: open-weight model za detekciju i redakciju osobnih podataka