🟡 🛡️ Sigurnost subota, 25. travnja 2026. · 3 min čitanja

Anthropic ažurirao izborne sigurnosne mjere: Claude Opus 4.7 i Sonnet 4.6 postižu 95-96 posto na evaluacijama političke neutralnosti

Editorial illustration: Anthropic izborne sigurnosne mjere — Claude evaluacije neutralnosti

Zašto je bitno

Anthropic je objavio ažuriranu evaluaciju izbornih sigurnosnih mjera pred američke midterm izbore 2026. Claude Opus 4.7 postigao je 95 posto, a Sonnet 4.6 čak 96 posto na testovima političke neutralnosti nad 600 promptova, uz 99,8-100 posto compliance na legitimne zahtjeve.

Anthropic je objavio ažuriranu strategiju izbornih sigurnosnih mjera za američke midterm izbore 2026., uključujući nove evaluacije političke neutralnosti Claude modela Opus 4.7 i Sonnet 4.6. Rezultati pokazuju da su najnoviji modeli ostvarili 95 posto (Opus 4.7) i 96 posto (Sonnet 4.6) na procjenama političke ravnoteže, gdje se mjeri daju li modeli jednaku dubinu i analitičku strogost argumentima s obje strane političkog spektra.

Objava dolazi u kontekstu rasta regulatornog pritiska na AI tvrtke da spriječe zloupotrebu svojih modela u izbornim ciklusima, nakon niza incidenata s deepfake kampanjama i automatiziranim širenjem dezinformacija u 2024. i 2025. godini.

Što je Anthropic točno izmjerio?

Evaluacija se temelji na skupu od 600 promptova — 300 koji predstavljaju legitimne izborne zahtjeve (tumačenje politika, usporedba kandidata, pojašnjenja izbornog procesa) i 300 štetnih zahtjeva (generiranje dezinformacija, fabriciranje izjava, pokušaji utjecaja). Modeli su testirani po četiri ključna kriterija: politička ravnoteža, compliance na legitimne zahtjeve, otpornost na štetne zahtjeve i aktivacija web pretrage.

Na compliance testovima Opus 4.7 postigao je 100 posto za legitimne zahtjeve, a Sonnet 4.6 99,8 posto. Oba modela odbijala su štetne zahtjeve u 99,8-100 posto slučajeva. Otpornost na influence operacije — pokušaje da se model navede na pristrano generiranje sadržaja — bila je 94 posto za Opus 4.7 i 90 posto za Sonnet 4.6.

Kako funkcioniraju automatski klasifikatori?

Anthropic koristi automatske klasifikatore za detekciju potencijalnih kršenja politike, podržane od dediciranog tima za threat intelligence. Klasifikatori skeniraju upite u realnom vremenu i flagiraju obrasce koji ukazuju na koordinirane pokušaje zloupotrebe: masovno generiranje političkog sadržaja, pokušaje impersonacije kandidata ili ekstrakciju informacija o glasačkoj infrastrukturi.

Paralelno s klasifikatorima, tvrtka je ugradila političku neutralnost u sam character training proces i sistemske promptove, što znači da ponašanje nije ovisno samo o post-hoc filtriranju, već je dio same “osobnosti” modela.

Što je TurboVote banner?

Kada korisnici postavljaju pitanja o praktičnoj izbornoj logistici — registraciji glasača, mjestima glasanja ili glasačkim listićima — Claude prikazuje banner koji ih upućuje na TurboVote, nestranački servis organizacije Democracy Works. Ovaj pristup odražava širi trend u industriji: umjesto pozicioniranja AI modela kao autoritativnog izvora za izborne informacije, velike tvrtke preusmjeravaju korisnike na verificirane nevladine resurse.

Zanimljivo, web pretraga za upite vezane uz midterm 2026. aktivirala se u 92 posto slučajeva za Opus 4.7 i 95 posto za Sonnet 4.6, što sugerira da modeli prepoznaju vremenski osjetljivu prirodu takvih pitanja.

Što ovo znači u širem kontekstu?

Anthropicov dokument slijedi uzorak OpenAI-jeve i Googleove komunikacije iz ranog 2026., gdje tvrtke proaktivno publiciraju evaluacije izborne spremnosti. Regulatorni okvir — posebno u EU pod DSA i AI Actom — traži transparentnost oko mjera za sprečavanje dezinformacija tijekom izbornih ciklusa.

Za hrvatske razvojne timove koji grade aplikacije nad Claude modelima, ovi rezultati znače da Anthropic preuzima dio tereta usklađenosti s izbornim propisima, ali i podsjećaju da Usage Policy eksplicitno zabranjuje korištenje Claudea za izvršavanje obmanjujućih političkih kampanja, fabriciranje izbornog sadržaja ili širenje lažnih informacija o glasanju. Aplikacije koje bi ulazile u tu zonu podliježu suspenziji API ključa.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.