🟡 🛡️ Sigurnost Objavljeno: · 2 min čitanja ·

OpenAI: ChatGPT prepoznaje rizik kroz cijeli razgovor — kontekstualna safety analiza umjesto per-message kontrole

Editorial illustration: ChatGPT razgovor s safety detection slojem koji prati kontekst.

OpenAI Helping ChatGPT better recognize context in sensitive conversations je novi safety update objavljen 14. svibnja 2026. koji pomiče safety mehanizam s pojedinačne poruke na razinu cijelog razgovora. ChatGPT sada detektira risk pattern-e kroz vrijeme i adaptivno odgovara na osjetljive teme. Pristup eliminira slabost klasičnih moderation sustava koji propuste eskalaciju jer svaku poruku procjenjuju izolirano.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

OpenAI je 14. svibnja 2026. objavio safety update koji pomiče ChatGPT moderation mehanizam s razine pojedinačne poruke na razinu cijelog razgovora. Promjena adresira jednu od najpoznatijih slabosti modela za large-scale moderation: nemogućnost detektirati eskalaciju kroz niz pojedinačno benignih poruka.

Što per-conversation safety analiza mijenja?

Klasični moderation sustavi ocjenjuju svaku poruku izolirano — ako je tekst pojedinačne poruke neutralan, prolazi kontrolu. Ali korisnici koji žele izvući harmful odgovor mogu napraviti gradient eskalaciju: serija benignih pitanja koja postupno vodi sustav prema sadržaju koji bi inače blokirao. Per-conversation analiza prati cijeli kontekst — pattern niza pitanja, kontekstualne signale o stanju korisnika, kumulativni risk profile razgovora.

OpenAI eksplicitno opisuje cilj kao “detektirati rizik kroz vrijeme i odgovoriti sigurnije”. Pristup ne ovisi samo o tekstu poruke — uključuje semantičku trajectory cijelog razgovora, signal o stanju korisnika i mogući rizik u sljedećoj poruci.

Koje konkretne situacije sustav adresira?

OpenAI ne navodi specifične kategorije u RSS opisu, ali pristup je tipično dizajniran za mentalno zdravlje scenarije (suicidal ideation eskalacija kroz razgovor), manipulation/grooming detekciju, dual-use content (kemija, sigurnost, oružje gdje pojedinačni faktoidi su nedragocjeni ali kombinacija opasna), i jailbreaking pokušaje koji koriste roleplay ili hypothetical framing kroz više turn-ova.

Kako adaptivni odgovori funkcioniraju?

Kada sistem detektira da razgovor ulazi u osjetljivu zonu, ChatGPT mijenja registar — koristi staloženiji jezik, postavlja safety resource-ove (npr. krizne linije za mentalno zdravlje), postaje suzdržaniji s detaljnim instrukcijama. Adaptivni odgovor nije binary block, već gradient prilagodbe gdje moderation severity skalira s detektiranim rizikom.

Položaj u OpenAI safety pristupu 2026.

Update se uklapa u OpenAI tjedan dramatičnih objava — Codex Windows Sandbox (13.5.), Codex from Anywhere (14.5.), Sea Limited Codex enterprise (14.5.), i sada ChatGPT safety update (14.5.). OpenAI očito strateški gura expansion + safety jasno simultano: nove platforme i nove zaštite. Per-conversation safety je također sličan istraživanju iz arXiv:2605.13825 History Anchors koje je pokazalo kako prior agent behavior može voditi unsafe outcome-e (objavljeno 13.5.). Pristup adresira sličnu klasu napada na strani consumer ChatGPT-a, ne agentic deploymenta.

Detalji iz RSS opisa — full članak na openai.com/index/* vraća HTTP 403 na direktan WebFetch, pa je primarni izvor bio openai.com/news/rss.xml feed.

Česta pitanja

Što znači per-conversation safety analiza?
Klasični moderation sustavi ocjenjuju svaku poruku izolirano — ako je pojedinačna poruka neutralna, prolazi kontrolu. Per-conversation analiza prati pattern-e kroz cijeli razgovor i može detektirati eskalaciju (npr. niz pojedinačno benignih pitanja koji u kombinaciji vode prema harmful outcome-u).
Što adaptivni odgovori znače u praksi?
Kada sustav detektira da razgovor ulazi u osjetljivu zonu (mentalno zdravlje, samoozljeđivanje, nasilje), ChatGPT mijenja registar — koristi staloženiji jezik, postavlja safety resource-ove, postaje suzdržaniji s detaljnim instrukcijama koje bi mogle biti zloupotrijebljene.