OpenAI: ChatGPT prepoznaje rizik kroz cijeli razgovor — kontekstualna safety analiza umjesto per-message kontrole
OpenAI Helping ChatGPT better recognize context in sensitive conversations je novi safety update objavljen 14. svibnja 2026. koji pomiče safety mehanizam s pojedinačne poruke na razinu cijelog razgovora. ChatGPT sada detektira risk pattern-e kroz vrijeme i adaptivno odgovara na osjetljive teme. Pristup eliminira slabost klasičnih moderation sustava koji propuste eskalaciju jer svaku poruku procjenjuju izolirano.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
OpenAI je 14. svibnja 2026. objavio safety update koji pomiče ChatGPT moderation mehanizam s razine pojedinačne poruke na razinu cijelog razgovora. Promjena adresira jednu od najpoznatijih slabosti modela za large-scale moderation: nemogućnost detektirati eskalaciju kroz niz pojedinačno benignih poruka.
Što per-conversation safety analiza mijenja?
Klasični moderation sustavi ocjenjuju svaku poruku izolirano — ako je tekst pojedinačne poruke neutralan, prolazi kontrolu. Ali korisnici koji žele izvući harmful odgovor mogu napraviti gradient eskalaciju: serija benignih pitanja koja postupno vodi sustav prema sadržaju koji bi inače blokirao. Per-conversation analiza prati cijeli kontekst — pattern niza pitanja, kontekstualne signale o stanju korisnika, kumulativni risk profile razgovora.
OpenAI eksplicitno opisuje cilj kao “detektirati rizik kroz vrijeme i odgovoriti sigurnije”. Pristup ne ovisi samo o tekstu poruke — uključuje semantičku trajectory cijelog razgovora, signal o stanju korisnika i mogući rizik u sljedećoj poruci.
Koje konkretne situacije sustav adresira?
OpenAI ne navodi specifične kategorije u RSS opisu, ali pristup je tipično dizajniran za mentalno zdravlje scenarije (suicidal ideation eskalacija kroz razgovor), manipulation/grooming detekciju, dual-use content (kemija, sigurnost, oružje gdje pojedinačni faktoidi su nedragocjeni ali kombinacija opasna), i jailbreaking pokušaje koji koriste roleplay ili hypothetical framing kroz više turn-ova.
Kako adaptivni odgovori funkcioniraju?
Kada sistem detektira da razgovor ulazi u osjetljivu zonu, ChatGPT mijenja registar — koristi staloženiji jezik, postavlja safety resource-ove (npr. krizne linije za mentalno zdravlje), postaje suzdržaniji s detaljnim instrukcijama. Adaptivni odgovor nije binary block, već gradient prilagodbe gdje moderation severity skalira s detektiranim rizikom.
Položaj u OpenAI safety pristupu 2026.
Update se uklapa u OpenAI tjedan dramatičnih objava — Codex Windows Sandbox (13.5.), Codex from Anywhere (14.5.), Sea Limited Codex enterprise (14.5.), i sada ChatGPT safety update (14.5.). OpenAI očito strateški gura expansion + safety jasno simultano: nove platforme i nove zaštite. Per-conversation safety je također sličan istraživanju iz arXiv:2605.13825 History Anchors koje je pokazalo kako prior agent behavior može voditi unsafe outcome-e (objavljeno 13.5.). Pristup adresira sličnu klasu napada na strani consumer ChatGPT-a, ne agentic deploymenta.
Detalji iz RSS opisa — full članak na openai.com/index/* vraća HTTP 403 na direktan WebFetch, pa je primarni izvor bio openai.com/news/rss.xml feed.
Česta pitanja
- Što znači per-conversation safety analiza?
- Klasični moderation sustavi ocjenjuju svaku poruku izolirano — ako je pojedinačna poruka neutralna, prolazi kontrolu. Per-conversation analiza prati pattern-e kroz cijeli razgovor i može detektirati eskalaciju (npr. niz pojedinačno benignih pitanja koji u kombinaciji vode prema harmful outcome-u).
- Što adaptivni odgovori znače u praksi?
- Kada sustav detektira da razgovor ulazi u osjetljivu zonu (mentalno zdravlje, samoozljeđivanje, nasilje), ChatGPT mijenja registar — koristi staloženiji jezik, postavlja safety resource-ove, postaje suzdržaniji s detaljnim instrukcijama koje bi mogle biti zloupotrijebljene.
Povezane vijesti
Anthropic: Project Glasswing pronašao 10.000 visokorizičnih ranjivosti u prvom mjesecu rada s Claude Mythos Preview
arXiv:2605.22786: LCGuard štiti dijeljeni KV cache između agenata u multi-agent sustavima od curenja podataka
GitHub: npm 11.15.0 uvodi staged publishing i tri nova install-time --allow flaga za supply chain hardening