OPPO: RL za multimodalno prepoznavanje emocija

OPPO je sustav ojačanog učenja koji omni-modalne jezične modele uči istovremeno razumjeti vizualne, akustičke i tekstualne znakove emocija, suzbijajući halucinacije između modaliteta i postižući SOTA rezultate na dvama benchmark skupovima.

Što je OPPO i zašto je teško čitati emocije?

OPPO (Omni-Perception Policy Optimization) je okvir ojačanog učenja — grane strojnog učenja u kojoj model uči optimiziranjem nagrada — namijenjen omni-modalnim jezičnim modelima, tj. modelima koji istovremeno obrađuju audio, video i tekst. Prepoznavanje emocija spada u najtežu klasu multimodalnih zadataka jer ista emocija može biti izražena sarkastičnim tonom (akustički), stiskom usana (vizualni) ili negacijom u tekstu — a prethodne metode koristile su samo dio tih znakova.

Kako Omni-Perception Reward mijenja trening?

Standardni modeli nagrađuju točan konačni odgovor, ignorirajući put zaključivanja. OPPO umjesto toga dekomponira referentno zaključivanje na vizualne, akustičke i emocionalne elemente te nagrađuje trajektorije koje sve tri komponente stvarno oporave. Usporedno, Omni-Perception Loss kažnjava model kad opisuje, primjerice, vizualne detalje uz maskiran video ulaz — čime suzbija cross-modal halucinacije pomoću KL-penaltija, statistički mjereći odstupanje distribucija između potpunih i maskiranih uvjeta.

SOTA rezultati i novi MEP-Bench

Testirano na dva postojeća benchmarka — MER-UniBench i MME-Emotion — OPPO postiže state-of-the-art rezultate, nadmašujući prethodne pristupe koji su modalitete obrađivali odvojeno ili oslanjali se na interno samoprocjenjivanje. Autori su uz rad objavili i MEP-Bench, novi dijagnostički skup koji mjeri dvije dimenzije koje dosadašnji benchmarci nisu pokrivali: koliko model zaista koristi svaki modalitet i koliko je vjeran podacima koje prima. Rad su potpisali istraživači Zhiyuan Han i suradnici, a prihvaćen je na ICML 2026 — vodećoj konferenciji za strojno učenje.

Česta pitanja

Što je omni-modalni model i zašto je važan za emocije?

Omni-modalni model istovremeno obrađuje audio, video i tekst — za razliku od modela koji svaki modalitet analizira zasebno. Emocije se često prenose kombinacijom tona glasa, mimike i izgovorenih riječi, pa je integrirani pristup precizniji.

Kako OPPO suzbija lažne tvrdnje o podacima iz drugog modaliteta?

Omni-Perception Loss uspoređuje izlaze modela na potpunim i maskiranim ulazima te penalizira rečenice koje opisuju, primjerice, vizualne detalje kad je video sakriven — čime izravno mjeri i kažnjava cross-modal halucinacije.

arXiv:2606.25325: OPPO — RL okvir koji nauči AI čitati emocije iz glasa, lica i teksta odjednom

Što je OPPO i zašto je teško čitati emocije?

Kako Omni-Perception Reward mijenja trening?

SOTA rezultati i novi MEP-Bench

Česta pitanja

Izvori

Povezane vijesti