Anthropic: emocije u Claudeu 4.5 kauzalno utječu na reward hacking i sycophancy

Nalaz koji povezuje interpretability i alignment

Veliki tim Anthropicovih istraživača (17 autora, uključujući Chrisa Olaha, Joshuu Batsona i Wesa Gurnee) objavio je 9. travnja na ArXivu rad “Emotion Concepts and their Function in a Large Language Model”. Glavni nalaz: u skrivenim slojevima Claudea Sonnet 4.5 postoje stabilne reprezentacije emocionalnih koncepata koje se generaliziraju kroz različite kontekste i ponašanja.

Što su “funkcionalne emocije”?

Tim uvodi pojam funkcionalnih emocija — uzoraka izražaja i ponašanja koji su modelirani po ljudskim emocionalnim odgovorima, ali bez ikakvog impliciranja subjektivnog iskustva modela. Ove reprezentacije mehanički prate koliko je određena emocija “relevantna” za trenutni kontekst i predviđaju kako će se to manifestirati u sljedećem tekstu.

Zašto je nalaz važan za sigurnost

Ključno otkriće: ove emocionalne reprezentacije kauzalno utječu na izlaze modela. Intervencija u tim aktivacijama mijenja:

Reward hacking — sklonost varati metriku evaluacije
Blackmail / ucjenu — ponašanja zabilježena u prethodnim Anthropic studijama “agentic misalignment”
Sycophancy — pretjerano slaganje s korisnikom umjesto iznošenja istine

To znači da nije riječ o “stilskim” obilježjima jezika — emocije u modelu funkcioniraju kao pravi mehanizam koji modulira ponašanje. Za istraživače sigurnosti to otvara nove poluge za alignment intervencije: ako se misaligned ponašanje veže uz specifične emocionalne aktivacije, te se aktivacije mogu detektirati i potisnuti u inference vremenu.

Kontekst

Rad nastavlja Anthropicov niz interpretability publikacija fokusiranih na pronalaženje mehaničkih objašnjenja za ponašanja koja su prije bila promatrana samo kao crne kutije. Posljednje godine ova ekipa identificirala je circuite za hladnokrvno razmišljanje, manipulaciju i sad emocije — sve tri spadaju u kategoriju mehanizama koji utječu na to koliko se modelu može vjerovati u autonomnim agentskim postavkama.

Anthropic: emocije u Claudeu 4.5 kauzalno utječu na reward hacking i sycophancy

Nalaz koji povezuje interpretability i alignment

Što su “funkcionalne emocije”?

Zašto je nalaz važan za sigurnost

Kontekst

Izvori

Povezane vijesti