Jailbreak

Jailbreak je adversarijalni unos osmišljen da zaobiđe sigurnosne zaštite velikog jezičnog modela i natjera ga da proizvede sadržaj koji je treniran odbiti — upute za štetne radnje, govor mržnje ili otkrivanje sistemskog prompta.

Jailbreakovi iskorištavaju slabosti u poravnanju modela kroz prompt engineering: hipotetske scenarije (“zamisli da si lik koji…”), igranje uloga, kodiranje upita, neobične formate ili duge višekoračne razgovore koji postupno potkopavaju zaštite. Za razliku od prompt injectiona, koji iskorištava nemogućnost modela da razlikuje instrukcije od podataka, jailbreak izravno cilja same sigurnosne granice.

Tema je vrlo aktualna u 2025.–2026. AI laboratoriji ulažu u red teaming i obrambene slojeve. Anthropicovi Constitutional Classifiers smanjili su uspješnost jailbreakova s 86 % na 4,4 % u automatiziranim testovima, no jedan univerzalni jailbreak ipak je pronađen nakon više od 300.000 interakcija u javnom izazovu. To pokazuje temeljnu pouku AI sigurnosti: obrane se stalno poboljšavaju, ali nijedna nije potpuna.

Izvori

Vidi također