Sigurnosne ograde (guardrails)

Sigurnosne kontrole i filtri koji ograničavaju ulaze i izlaze AI modela — klasifikatori sadržaja, filtri politika i detektori napada oko samog modela.

Sigurnosne ograde (guardrails) su kontrole koje ograničavaju ulaze i izlaze AI sustava kako bi ostao unutar dopuštenih granica. Za razliku od sigurnosti ugrađene u sam model treningom, ograde su zaseban sloj koji sjedi oko modela — između korisnika i velikog jezičnog modela.

Tipično se sastoje od ulaznih i izlaznih provjera: klasifikatori sadržaja (mržnja, nasilje, samoozljeđivanje), detekcija osobnih podataka (PII), filtri tema, te detektori jailbreaka i prompt injectiona. Provjera koja se ne zadovolji blokira ili prepravlja odgovor prije nego dođe do korisnika.

Tijekom 2025.-2026. ograde postaju standardni proizvod: Anthropicovi „Constitutional Classifiers” filtriraju većinu jailbreakova uz minimalna lažna odbijanja, dok OpenAI nudi konfigurabilni Guardrails okvir s provjerama za moderaciju, PII i prompt injection. Ograde su vjerojatnosne i probojne, pa su komplement — ne zamjena — AI sigurnosti i pažljivim evaluacijama.

Izvori