基礎

マルチモーダルモデル

単一のモデル内でテキスト・画像・音声・動画といった複数のモダリティを処理および生成するAIシステムです。各モダリティを共有表現空間に変換し、同一のネットワークで統合的に扱います。

マルチモーダルモデルmultimodal model)とは、単一のアーキテクチャ内で複数の種類のデータ(モダリティ)、すなわちテキスト・画像・音声・動画を処理および生成するAIシステムです。単一のモダリティに限定されたモデルとは異なり、写真の内容を説明したり、グラフに関する質問に答えたり、文章の記述から画像を生成したりできます。

技術的には、各モダリティは共有された表現空間(埋め込みを参照)に変換され、同一のネットワークが統合的に処理します。現代の「ネイティブマルチモーダル」モデルは当初から混合データで訓練され、多くは Transformer アーキテクチャに基づきます。一方、画像や動画の生成にはしばしば拡散モデルが用いられます。

2025〜2026年にかけて、マルチモーダル性は主要な基盤モデルの標準となりました。Gemini、GPT-4o、Claudeなどはテキスト・画像・文書・音声・動画を受け取ります。これは「見て」「聞く」アシスタントへの重要な一歩であり、現実の多様な入力に作用するエージェントシステムの基盤でもあります。

出典

関連項目