モデル
ビジョン・ランゲージモデル
画像とテキストを統合的に学習し、画像を「見て」自然言語で推論できるAIモデル。GPT-4o、Claude、Geminiの視覚能力の基盤となる。
ビジョン・ランゲージモデル(vision-language model、VLM)とは、画像とテキストを単一のモデル内で統合的に処理するAIシステムである。テキストのみに限定される大規模言語モデルとは異なり、VLMは写真を説明し、グラフや図表に関する質問に答え、画像に埋め込まれた文字を読み取って解釈できる。
技術的には、画像はビジョンエンコーダーを通じて一連のベクトル表現(埋め込みを参照)に変換される。これらはテキストと同じトークン列に挿入され、共有されたTransformerの基盤が両者を一体的に処理する。こうしてモデルは「見たもの」と「言葉で表すもの」の関係を学習し、出力は通常テキスト——説明、回答、または分析となる。
2025年から2026年にかけて、ビジョン・ランゲージ能力は主要な基盤モデルの標準となった。GPT-4o、Claude、Geminiは画像、文書、スクリーンショットをネイティブに受け付ける。これは「見る」ことができるアシスタントへの重要な一歩であり、ユーザーインターフェースや表計算などの視覚的入力に基づいて動作するエージェントシステムの基盤でもある。