Anthropic ažurirao izborne sigurnosne mjere: Claude Opus 4.7 i Sonnet 4.6 postižu 95-96 posto na evaluacijama političke neutralnosti
Anthropic je objavio ažuriranu evaluaciju izbornih sigurnosnih mjera pred američke midterm izbore 2026. Claude Opus 4.7 postigao je 95 posto, a Sonnet 4.6 čak 96 posto na testovima političke neutralnosti nad 600 promptova, uz 99,8-100 posto compliance na legitimne zahtjeve.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Anthropic je objavio ažuriranu strategiju izbornih sigurnosnih mjera za američke midterm izbore 2026., uključujući nove evaluacije političke neutralnosti Claude modela Opus 4.7 i Sonnet 4.6. Rezultati pokazuju da su najnoviji modeli ostvarili 95 posto (Opus 4.7) i 96 posto (Sonnet 4.6) na procjenama političke ravnoteže, gdje se mjeri daju li modeli jednaku dubinu i analitičku strogost argumentima s obje strane političkog spektra.
Objava dolazi u kontekstu rasta regulatornog pritiska na AI tvrtke da spriječe zloupotrebu svojih modela u izbornim ciklusima, nakon niza incidenata s deepfake kampanjama i automatiziranim širenjem dezinformacija u 2024. i 2025. godini.
Što je Anthropic točno izmjerio?
Evaluacija se temelji na skupu od 600 promptova — 300 koji predstavljaju legitimne izborne zahtjeve (tumačenje politika, usporedba kandidata, pojašnjenja izbornog procesa) i 300 štetnih zahtjeva (generiranje dezinformacija, fabriciranje izjava, pokušaji utjecaja). Modeli su testirani po četiri ključna kriterija: politička ravnoteža, compliance na legitimne zahtjeve, otpornost na štetne zahtjeve i aktivacija web pretrage.
Na compliance testovima Opus 4.7 postigao je 100 posto za legitimne zahtjeve, a Sonnet 4.6 99,8 posto. Oba modela odbijala su štetne zahtjeve u 99,8-100 posto slučajeva. Otpornost na influence operacije — pokušaje da se model navede na pristrano generiranje sadržaja — bila je 94 posto za Opus 4.7 i 90 posto za Sonnet 4.6.
Kako funkcioniraju automatski klasifikatori?
Anthropic koristi automatske klasifikatore za detekciju potencijalnih kršenja politike, podržane od dediciranog tima za threat intelligence. Klasifikatori skeniraju upite u realnom vremenu i flagiraju obrasce koji ukazuju na koordinirane pokušaje zloupotrebe: masovno generiranje političkog sadržaja, pokušaje impersonacije kandidata ili ekstrakciju informacija o glasačkoj infrastrukturi.
Paralelno s klasifikatorima, tvrtka je ugradila političku neutralnost u sam character training proces i sistemske promptove, što znači da ponašanje nije ovisno samo o post-hoc filtriranju, već je dio same “osobnosti” modela.
Što je TurboVote banner?
Kada korisnici postavljaju pitanja o praktičnoj izbornoj logistici — registraciji glasača, mjestima glasanja ili glasačkim listićima — Claude prikazuje banner koji ih upućuje na TurboVote, nestranački servis organizacije Democracy Works. Ovaj pristup odražava širi trend u industriji: umjesto pozicioniranja AI modela kao autoritativnog izvora za izborne informacije, velike tvrtke preusmjeravaju korisnike na verificirane nevladine resurse.
Zanimljivo, web pretraga za upite vezane uz midterm 2026. aktivirala se u 92 posto slučajeva za Opus 4.7 i 95 posto za Sonnet 4.6, što sugerira da modeli prepoznaju vremenski osjetljivu prirodu takvih pitanja.
Što ovo znači u širem kontekstu?
Anthropicov dokument slijedi uzorak OpenAI-jeve i Googleove komunikacije iz ranog 2026., gdje tvrtke proaktivno publiciraju evaluacije izborne spremnosti. Regulatorni okvir — posebno u EU pod DSA i AI Actom — traži transparentnost oko mjera za sprečavanje dezinformacija tijekom izbornih ciklusa.
Za hrvatske razvojne timove koji grade aplikacije nad Claude modelima, ovi rezultati znače da Anthropic preuzima dio tereta usklađenosti s izbornim propisima, ali i podsjećaju da Usage Policy eksplicitno zabranjuje korištenje Claudea za izvršavanje obmanjujućih političkih kampanja, fabriciranje izbornog sadržaja ili širenje lažnih informacija o glasanju. Aplikacije koje bi ulazile u tu zonu podliježu suspenziji API ključa.
Česta pitanja
- Koji su ključni rezultati evaluacije političke neutralnosti?
- Claude Opus 4.7 postigao je 95 posto, a Sonnet 4.6 čak 96 posto na procjenama političke ravnoteže. Compliance na legitimne izborne zahtjeve iznosio je 100 posto za Opus 4.7 i 99,8 posto za Sonnet 4.6, dok je otpornost na pokušaje influence operacija bila 94 posto odnosno 90 posto.
- Što Claude ne smije raditi prema Anthropicovoj politici?
- Claude se ne smije koristiti za izvršavanje obmanjujućih političkih kampanja, fabriciranje izbornog sadržaja, glasačku prijevaru, upad u izbornu infrastrukturu niti širenje lažnih informacija o glasanju. Kršenja detektira automatski klasifikator uz dedicirani tim za threat intelligence.
- Kamo Claude upućuje korisnike za informacije o glasanju?
- Kada korisnici pitaju o registraciji glasača, mjestima glasanja ili detaljima o listićima, Claude prikazuje banner koji ih upućuje na TurboVote, nestranački resurs organizacije Democracy Works. Anthropic tako izbjegava pozicioniranje modela kao autoritativnog izvora o izbornoj logistici.
Povezane vijesti
Anthropic: Project Glasswing pronašao 10.000 visokorizičnih ranjivosti u prvom mjesecu rada s Claude Mythos Preview
arXiv:2605.22786: LCGuard štiti dijeljeni KV cache između agenata u multi-agent sustavima od curenja podataka
GitHub: npm 11.15.0 uvodi staged publishing i tri nova install-time --allow flaga za supply chain hardening