ビジョン・ランゲージモデル

ビジョン・ランゲージモデル（vision-language model、VLM）とは、画像とテキストを単一のモデル内で統合的に処理するAIシステムである。テキストのみに限定される大規模言語モデルとは異なり、VLMは写真を説明し、グラフや図表に関する質問に答え、画像に埋め込まれた文字を読み取って解釈できる。

技術的には、画像はビジョンエンコーダーを通じて一連のベクトル表現（埋め込みを参照）に変換される。これらはテキストと同じトークン列に挿入され、共有されたTransformerの基盤が両者を一体的に処理する。こうしてモデルは「見たもの」と「言葉で表すもの」の関係を学習し、出力は通常テキスト——説明、回答、または分析となる。

2025年から2026年にかけて、ビジョン・ランゲージ能力は主要な基盤モデルの標準となった。GPT-4o、Claude、Geminiは画像、文書、スクリーンショットをネイティブに受け付ける。これは「見る」ことができるアシスタントへの重要な一歩であり、ユーザーインターフェースや表計算などの視覚的入力に基づいて動作するエージェントシステムの基盤でもある。

出典

関連項目