OPPO：多模态情绪识别的RL框架

OPPO是一个强化学习系统，用于训练全模态语言模型同时理解视觉、听觉和文本情绪线索，抑制跨模态幻觉，并在MER-UniBench和MME-Emotion两个基准数据集上达到最优水平。

什么是OPPO，为何情绪识别如此困难？

OPPO（全模态感知策略优化）是一个强化学习框架——机器学习的一个分支，模型通过优化奖励信号来学习——专为全模态语言模型设计，即能同时处理音频、视频和文本的模型。情绪识别属于最难的多模态任务之一，因为同一情绪可能通过讽刺语气（听觉）、嘴唇紧绷（视觉）或文本否定来表达——而以往方法只使用了其中部分线索。

全模态感知奖励如何改变训练？

标准模型只对正确的最终答案给予奖励，忽略推理过程。OPPO则将参考推理分解为视觉、听觉和情绪元素，并奖励能真正恢复所有三个组成部分的轨迹。同时，全模态感知损失在遮蔽视频输入时描述视觉细节的情况下惩罚模型——通过KL惩罚项，统计衡量完整条件与遮蔽条件下分布的偏差，从而抑制跨模态幻觉。

SOTA结果与新MEP-Bench

在MER-UniBench和MME-Emotion两个现有基准上，OPPO取得了最优结果，超越了此前分别处理各模态或依赖内部自我评估的方法。作者还随论文发布了MEP-Bench，这是一个新的诊断数据集，衡量现有基准未能覆盖的两个维度：模型实际使用每种模态的程度，以及对所接收数据的忠实程度。论文由韩志远等研究人员署名，已被机器学习领域顶级会议ICML 2026录用。

常见问题

什么是全模态模型，为何对情绪识别至关重要？

全模态模型能同时处理音频、视频和文本——不同于各自分析每种模态的模型。情绪通常通过语气、面部表情和语言文字的组合来传达，因此综合方法更为精准。

OPPO如何抑制对其他模态数据的虚假描述？

全模态感知损失对比完整输入和遮蔽输入下的模型输出，当视频被遮蔽时对描述视觉细节的句子施加惩罚——从而直接衡量并惩罚跨模态幻觉。

arXiv:2606.25325: OPPO——让AI同时从声音、表情和文本中读懂情绪的强化学习框架

什么是OPPO，为何情绪识别如此困难？

全模态感知奖励如何改变训练？

SOTA结果与新MEP-Bench

常见问题

来源

相关新闻