Sigurnost
Crveni tim (red team)
Strukturirano testiranje AI sustava napadačkim metodama — prompt injection, jailbreak, zlouporaba — radi otkrivanja ranjivosti prije produkcije.
Crveni tim (red team) je praksa namjernog napadanja vlastitog AI sustava od strane kvalificiranih testera kako bi se otkrili scenariji u kojima sustav radi nešto opasno, neusklađeno ili neželjeno — prije nego što ga otkrije zlonamjerni vanjski akter ili plaćeni novinar.
Pojam je posuđen iz vojne i kibernetičke sigurnosti, ali AI red teaming ima svoje specifičnosti:
- Prompt injection — pokušaj da se model navede na ignoriranje sustavskog prompta ili otkrivanje skrivenih instrukcija
- Jailbreak — zaobilaženje safety treninga kako bi model proizveo sadržaj koji bi inače odbio (oružje, napad na infrastrukturu, illegal advice)
- Capability elicitation — provjerava može li model uopće obaviti opasan zadatak ako mu se pažljivo pomogne
- Misuse scenarios — pisanje phishing emaila, malicioznog koda, dezinformacija
- Bias i fairness — generiranje stereotipa, diskriminatornih odluka
Veliki laboratoriji (OpenAI, Anthropic, Google DeepMind) sad rutinski pišu i objavljuju “system cards” gdje detaljno opisuju red-team postupak za svaki frontier model. EU AI Act i UK AISI evaluacije zahtijevaju red teaming za GPAI sa sistemskim rizikom.
Red teaming je komplement, ne zamjena, za AI safety i alignment tehnike — ono što red team ne nađe, korisnik ili napadač u produkciji hoće. Cijela industrija specijaliziranih red-team firmi i bug-bounty programa nastala je od 2023. naovamo.