비전-언어 모델

비전-언어 모델(vision-language model, VLM)은 이미지와 텍스트를 하나의 모델 안에서 함께 처리하는 AI 시스템이다. 텍스트에만 국한된 대규모 언어 모델과 달리, VLM은 사진을 설명하고 도표나 다이어그램에 관한 질문에 답하며 이미지에 포함된 글자를 읽고 해석할 수 있다.

기술적으로 이미지는 비전 인코더를 거쳐 일련의 벡터 표현(임베딩 참조)으로 변환된다. 이 표현들은 텍스트와 동일한 토큰 시퀀스에 삽입되어, 공유된 트랜스포머 백본이 둘을 함께 처리한다. 이렇게 모델은 “본 것”과 “말로 표현하는 것” 사이의 관계를 학습하며, 출력은 대개 텍스트 — 설명, 답변, 또는 분석이다.

2025-2026년에 걸쳐 비전-언어 능력은 주요 파운데이션 모델의 표준이 되었다. GPT-4o, Claude, Gemini는 이미지, 문서, 스크린샷을 기본으로 받아들인다. 이는 “볼 수 있는” 어시스턴트를 향한 핵심 단계이며, 사용자 인터페이스나 스프레드시트 같은 시각적 입력에 따라 작동하는 에이전트 시스템의 기반이기도 하다.

출처

관련 항목