🟢 🤖 Modelle Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2606.25325: OPPO — RL-Framework, der KI das simultane Lesen von Stimme, Gesicht und Text beibringt

arXiv:2606.25325 ↗

Redaktionelle Illustration: multimodales System mit Schallwellen, Gesichtsrahmen und Textblasen, die sich zu einer Emotionsanalyse vereinen

OPPO ist ein System des verstärkenden Lernens, das omni-modale Sprachmodelle trainiert, visuelle, akustische und textuelle Emotionshinweise gleichzeitig zu verstehen, Cross-Modal-Halluzinationen zu unterdrücken und SOTA-Ergebnisse auf zwei Benchmark-Datensätzen zu erzielen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Was ist OPPO und warum ist Emotionserkennung so schwierig?

OPPO (Omni-Perception Policy Optimization) ist ein Framework des verstärkenden Lernens — eines Zweigs des maschinellen Lernens, bei dem ein Modell durch Belohnungsoptimierung lernt — für omni-modale Sprachmodelle, d. h. Modelle, die gleichzeitig Audio, Video und Text verarbeiten. Die Emotionserkennung gehört zur schwierigsten Klasse multimodaler Aufgaben, da dieselbe Emotion durch einen sarkastischen Ton (akustisch), einen angespannten Mund (visuell) oder eine Verneinung im Text ausgedrückt werden kann — während frühere Methoden nur einen Teil dieser Hinweise nutzten.

Wie verändert die Omni-Perception Reward das Training?

Standardmodelle belohnen nur die korrekte Schlussantwort und ignorieren den Schlussfolgerungsweg. OPPO zerlegt stattdessen die Referenz-Schlussfolgerung in visuelle, akustische und emotionale Elemente und belohnt Trajektorien, die alle drei Komponenten tatsächlich wiederherstellen. Parallel dazu bestraft der Omni-Perception Loss das Modell, wenn es beispielsweise visuelle Details mit maskiertem Videoeingang beschreibt — Cross-Modal-Halluzinationen werden durch einen KL-Penalty unterdrückt, der statistisch die Verteilungsabweichung zwischen vollständigen und maskierten Bedingungen misst.

SOTA-Ergebnisse und der neue MEP-Bench

Getestet auf zwei bestehenden Benchmarks — MER-UniBench und MME-Emotion — erzielt OPPO State-of-the-Art-Ergebnisse und übertrifft frühere Ansätze, die Modalitäten getrennt verarbeiteten oder auf interner Selbstbewertung beruhten. Die Autoren veröffentlichten zudem MEP-Bench, einen neuen diagnostischen Datensatz, der zwei Dimensionen misst, die bisherige Benchmarks nicht abdeckten: wie stark das Modell jede Modalität tatsächlich nutzt und wie treu es den empfangenen Daten bleibt. Das Paper wurde von Zhiyuan Han und Mitautoren verfasst und auf der ICML 2026 akzeptiert.

Häufig gestellte Fragen

Was ist ein omni-modales Modell und warum ist es für Emotionen wichtig?
Ein omni-modales Modell verarbeitet gleichzeitig Audio, Video und Text — im Gegensatz zu Modellen, die jede Modalität separat analysieren. Da Emotionen häufig durch eine Kombination aus Stimmton, Mimik und gesprochenem Text übermittelt werden, ist ein integrierter Ansatz präziser.
Wie unterdrückt OPPO falsche Behauptungen über Daten aus einer anderen Modalität?
Der Omni-Perception Loss vergleicht Modellausgaben bei vollständigen und maskierten Eingaben und bestraft Sätze, die etwa visuelle Details beschreiben, wenn das Video verborgen ist — wodurch Cross-Modal-Halluzinationen direkt gemessen und sanktioniert werden.