OPPO：マルチモーダル感情認識のRL

OPPOは強化学習システムであり、オムニモーダル言語モデルに視覚的・音響的・テキスト的な感情の手がかりを同時に理解させるものです。モダリティ間の幻覚を抑制し、2つのベンチマークデータセットでSOTA結果を達成しています。

OPPOとは何か、なぜ感情認識は難しいのか？

OPPO（Omni-Perception Policy Optimization）は、音声・映像・テキストを同時に処理するオムニモーダル言語モデル向けに設計された強化学習フレームワークです。感情認識はマルチモーダルタスクの中でも最も難しい部類に入ります。同じ感情が皮肉なトーン（音響的）、口元の緊張（視覚的）、またはテキスト内の否定として表現される可能性があるからです。従来の手法はこれらの手がかりの一部しか活用していませんでした。

Omni-Perception Rewardはどのようにトレーニングを変えるか？

標準的なモデルは推論プロセスを無視して、正確な最終回答に報酬を与えます。OPPOはこれとは異なり、参照推論を視覚的・音響的・感情的要素に分解し、3つすべての要素を実際に回収した軌跡に報酬を与えます。また、Omni-Perception Lossはモデルがマスクされた映像入力に対して視覚的詳細を説明する場合など、不完全な入力と完全な入力の分布間のKL ペナルティを統計的に測定することでクロスモーダルな幻覚を抑制します。

SOTA結果と新しいMEP-Bench

2つの既存ベンチマーク（MER-UniBenchとMME-Emotion）でテストされたOPPOは、モダリティを個別に処理したり内部での自己評価に依存したりする従来のアプローチを超えるstate-of-the-art結果を達成しています。著者たちは論文とともにMEP-Benchも発表しました。これは従来のベンチマークがカバーしていなかった2つの次元、モデルが各モダリティを実際にどれだけ使用しているか、受け取るデータにどれほど忠実かを測定する新しい診断データセットです。論文はZhiyuan Hanらの研究者が署名し、機械学習のトップカンファレンスであるICML 2026に採択されています。

よくある質問

オムニモーダルモデルとは何か、また感情認識においてなぜ重要ですか？

オムニモーダルモデルは音声・映像・テキストを同時に処理します。各モダリティを個別に分析するモデルとは異なります。感情は声のトーン、表情、発話内容の組み合わせで伝えられることが多いため、統合的なアプローチの方が精度が高くなります。

OPPOはどのようにして他のモダリティのデータに関する虚偽の主張を抑制しますか？

Omni-Perception Lossは、完全な入力とマスクされた入力のモデル出力を比較し、たとえばビデオが隠された状態で視覚的詳細を説明する文章にペナルティを与えます。これによりクロスモーダルな幻覚を直接測定・抑制します。

arXiv:2606.25325: OPPO — 声・表情・テキストから同時に感情を読み取るAIのRLフレームワーク

OPPOとは何か、なぜ感情認識は難しいのか？

Omni-Perception Rewardはどのようにトレーニングを変えるか？

SOTA結果と新しいMEP-Bench

よくある質問

出典

関連ニュース