Sigurnost

Crveni tim (red team)

Strukturirano testiranje AI sustava napadačkim metodama — prompt injection, jailbreak, zlouporaba — radi otkrivanja ranjivosti prije produkcije.

Crveni tim (red team) je praksa namjernog napadanja vlastitog AI sustava od strane kvalificiranih testera kako bi se otkrili scenariji u kojima sustav radi nešto opasno, neusklađeno ili neželjeno — prije nego što ga otkrije zlonamjerni vanjski akter ili plaćeni novinar.

Pojam je posuđen iz vojne i kibernetičke sigurnosti, ali AI red teaming ima svoje specifičnosti:

  • Prompt injection — pokušaj da se model navede na ignoriranje sustavskog prompta ili otkrivanje skrivenih instrukcija
  • Jailbreak — zaobilaženje safety treninga kako bi model proizveo sadržaj koji bi inače odbio (oružje, napad na infrastrukturu, illegal advice)
  • Capability elicitation — provjerava može li model uopće obaviti opasan zadatak ako mu se pažljivo pomogne
  • Misuse scenarios — pisanje phishing emaila, malicioznog koda, dezinformacija
  • Bias i fairness — generiranje stereotipa, diskriminatornih odluka

Veliki laboratoriji (OpenAI, Anthropic, Google DeepMind) sad rutinski pišu i objavljuju “system cards” gdje detaljno opisuju red-team postupak za svaki frontier model. EU AI Act i UK AISI evaluacije zahtijevaju red teaming za GPAI sa sistemskim rizikom.

Red teaming je komplement, ne zamjena, za AI safety i alignment tehnike — ono što red team ne nađe, korisnik ili napadač u produkciji hoće. Cijela industrija specijaliziranih red-team firmi i bug-bounty programa nastala je od 2023. naovamo.

Izvori

Vidi također