arXiv:2606.25325: OPPO — RL okvir koji nauči AI čitati emocije iz glasa, lica i teksta odjednom
OPPO je sustav ojačanog učenja koji omni-modalne jezične modele uči istovremeno razumjeti vizualne, akustičke i tekstualne znakove emocija, suzbijajući halucinacije između modaliteta i postižući SOTA rezultate na dvama benchmark skupovima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je OPPO i zašto je teško čitati emocije?
OPPO (Omni-Perception Policy Optimization) je okvir ojačanog učenja — grane strojnog učenja u kojoj model uči optimiziranjem nagrada — namijenjen omni-modalnim jezičnim modelima, tj. modelima koji istovremeno obrađuju audio, video i tekst. Prepoznavanje emocija spada u najtežu klasu multimodalnih zadataka jer ista emocija može biti izražena sarkastičnim tonom (akustički), stiskom usana (vizualni) ili negacijom u tekstu — a prethodne metode koristile su samo dio tih znakova.
Kako Omni-Perception Reward mijenja trening?
Standardni modeli nagrađuju točan konačni odgovor, ignorirajući put zaključivanja. OPPO umjesto toga dekomponira referentno zaključivanje na vizualne, akustičke i emocionalne elemente te nagrađuje trajektorije koje sve tri komponente stvarno oporave. Usporedno, Omni-Perception Loss kažnjava model kad opisuje, primjerice, vizualne detalje uz maskiran video ulaz — čime suzbija cross-modal halucinacije pomoću KL-penaltija, statistički mjereći odstupanje distribucija između potpunih i maskiranih uvjeta.
SOTA rezultati i novi MEP-Bench
Testirano na dva postojeća benchmarka — MER-UniBench i MME-Emotion — OPPO postiže state-of-the-art rezultate, nadmašujući prethodne pristupe koji su modalitete obrađivali odvojeno ili oslanjali se na interno samoprocjenjivanje. Autori su uz rad objavili i MEP-Bench, novi dijagnostički skup koji mjeri dvije dimenzije koje dosadašnji benchmarci nisu pokrivali: koliko model zaista koristi svaki modalitet i koliko je vjeran podacima koje prima. Rad su potpisali istraživači Zhiyuan Han i suradnici, a prihvaćen je na ICML 2026 — vodećoj konferenciji za strojno učenje.
Česta pitanja
- Što je omni-modalni model i zašto je važan za emocije?
- Omni-modalni model istovremeno obrađuje audio, video i tekst — za razliku od modela koji svaki modalitet analizira zasebno. Emocije se često prenose kombinacijom tona glasa, mimike i izgovorenih riječi, pa je integrirani pristup precizniji.
- Kako OPPO suzbija lažne tvrdnje o podacima iz drugog modaliteta?
- Omni-Perception Loss uspoređuje izlaze modela na potpunim i maskiranim ulazima te penalizira rečenice koje opisuju, primjerice, vizualne detalje kad je video sakriven — čime izravno mjeri i kažnjava cross-modal halucinacije.
Izvori
Povezane vijesti
Google Research: kako razmišljanje otključava parametarsko znanje u LLM-ovima
arXiv:2606.24510: RaDaR — specijalizirani 32B reasoning LLM ubrzava dijagnozu rijetkih bolesti u RCT-u
arXiv:2606.24014: RL treniranje na zdravstvenom domenu prenosi usklađenost na 80%+ OOD benchmarka