Što je SIREN i čime se razlikuje od klasičnih guard modela?

SIREN je lagani guard model koji detektira štetan sadržaj čitajući unutarnje aktivacije LLM-a kroz više slojeva umjesto da analizira samo konačni izlaz, što je pristup koji koriste tradicionalni filteri.

Koje su glavne prednosti i ograničenja?

Prednosti su 250× manje parametara, bolja generalizacija na nove benchmarkove i veća inferencijska efikasnost. Glavno ograničenje je potreba za bijelom pristupom unutarnjim stanjima modela, što favorizira open-source modele.

SIREN: LLM sigurnost iz unutarnjih reprezentacija modela

Novi znanstveni rad pod nazivom “LLM Safety From Within: Detecting Harmful Content with Internal Representations”, koji predstavlja sustav SIREN, objavljen je 20. travnja 2026. na ArXiv-u (ID 2604.18519). Autori Difan Jiao, Yilun Liu, Ye Yuan, Zhenwei Tang, Linfeng Du, Haolun Wu i Ashton Anderson predlažu pomak od klasičnog output filtriranja (filtriranje izlaza) prema detekciji iz unutarnjih stanja modela, što bi moglo bitno promijeniti način na koji open-source LLM-ovi implementiraju sigurnost.

Što je output filtriranje i zašto ga SIREN napušta?

Većina današnjih sigurnosnih mehanizama — uključujući Claudea, GPT i Llamu — oslanja se na output filtriranje (filtriranje izlaza). Model proizvede tekst, a zaseban “guard model” (čuvarski model) taj tekst pregleda i odluči hoće li ga pustiti, cenzurirati ili izbaciti refuze poruku. Takvi guard modeli su u pravilu veliki, računski skupi, i reagiraju nakon što je model već uložio trud u generiranje.

SIREN mijenja perspektivu. Umjesto da analizira samo završni token ili konačni output, koristi linearno probiranje (linear probing) za pronalaženje “sigurnosnih neurona” raspršenih kroz više slojeva modela. Riječ je o analizi hidden states (skrivenih stanja) i aktivacija — unutarnjih numeričkih vektora koje model proizvodi dok obrađuje ulaz. Te informacije postoje i prije nego što se izgovori ijedna riječ izlaza, pa SIREN može reagirati ranije i preciznije.

Kako točno radi adaptivna strategija po slojevima?

SIREN primjenjuje adaptivnu layer-weighted strategiju: ne tretira sve slojeve jednako, nego uči koje slojeve više vagati u konačnoj odluci o štetnosti. Linearno probiranje je tehnika gdje se na svakom sloju trenira mali linearni klasifikator koji procjenjuje je li reprezentacija na tom sloju “sigurna” ili “opasna”. Autori pokazuju da su safety-relevantne značajke “raspršene kroz unutarnje slojeve” — dakle, ne nalaze se samo na kraju, nego su rasute po cijelom putu obrade.

Rezultati su impresivni. SIREN “značajno nadmašuje state-of-the-art open-source guard modele” uz 250 puta manje treniranih parametara. Pokazuje i bolju generalizaciju na benchmarkove koje nije vidio tijekom treniranja, što je tradicionalno slaba točka sigurnosnih klasifikatora. Zbog male veličine, inferencija (proces generiranja odgovora) je mnogo brža nego kod generativnih guard modela koji sami moraju “napisati” objašnjenje zašto je nešto štetno.

Za koga je ovo važno i koja su ograničenja?

Glavna prednost s korisničke strane je manje false refuze (pogrešnih odbijanja) — kad model odbije legitiman zahtjev jer ga guard klasificira preoprezno. Jer SIREN čita unutarnja stanja, bolje razlikuje stvarnu namjeru od površinskih okidača (npr. riječ “napad” u kontekstu cybersecurity edukacije neće automatski aktivirati blokadu).

Glavno ograničenje je jasno: SIREN zahtijeva bijeli pristup modelu (white-box access), to jest mogućnost čitanja unutarnjih aktivacija. To ga isključuje iz zatvorenih komercijalnih API-ja poput OpenAI-jevog ili Anthropicovog, gdje su unutarnja stanja nedostupna. S druge strane, upravo to čini SIREN izuzetno atraktivnim za open-source ekosustav (Llama, Qwen, Mistral, DeepSeek), gdje su hidden states potpuno dostupni i gdje razvijači često trebaju jeftinu, lokalnu sigurnosnu infrastrukturu bez slanja sadržaja vanjskim guard servisima.

SIREN: novi pristup LLM sigurnosti koji čita unutarnja stanja modela umjesto filtriranja izlaza

Što je output filtriranje i zašto ga SIREN napušta?

Kako točno radi adaptivna strategija po slojevima?

Za koga je ovo važno i koja su ograničenja?

Izvori

Povezane vijesti