Sigurnost
Sigurnosne ograde (guardrails)
Sigurnosne kontrole i filtri koji ograničavaju ulaze i izlaze AI modela — klasifikatori sadržaja, filtri politika i detektori napada oko samog modela.
Sigurnosne ograde (guardrails) su kontrole koje ograničavaju ulaze i izlaze AI sustava kako bi ostao unutar dopuštenih granica. Za razliku od sigurnosti ugrađene u sam model treningom, ograde su zaseban sloj koji sjedi oko modela — između korisnika i velikog jezičnog modela.
Tipično se sastoje od ulaznih i izlaznih provjera: klasifikatori sadržaja (mržnja, nasilje, samoozljeđivanje), detekcija osobnih podataka (PII), filtri tema, te detektori jailbreaka i prompt injectiona. Provjera koja se ne zadovolji blokira ili prepravlja odgovor prije nego dođe do korisnika.
Tijekom 2025.-2026. ograde postaju standardni proizvod: Anthropicovi „Constitutional Classifiers” filtriraju većinu jailbreakova uz minimalna lažna odbijanja, dok OpenAI nudi konfigurabilni Guardrails okvir s provjerama za moderaciju, PII i prompt injection. Ograde su vjerojatnosne i probojne, pa su komplement — ne zamjena — AI sigurnosti i pažljivim evaluacijama.