기초
멀티모달 모델
단일 모델 안에서 텍스트, 이미지, 오디오, 비디오 등 여러 모달리티를 처리하고/또는 생성하는 AI 시스템입니다. 각 모달리티를 공유 표현 공간으로 변환해 동일한 네트워크가 함께 처리합니다.
멀티모달 모델(multimodal model)은 단일 아키텍처 안에서 텍스트, 이미지, 오디오, 비디오와 같은 여러 종류의 데이터, 즉 모달리티를 처리하고/또는 생성하는 AI 시스템입니다. 단일 모달리티에 한정된 모델과 달리, 멀티모달 모델은 사진의 내용을 설명하거나, 차트에 관한 질문에 답하거나, 텍스트 설명으로부터 이미지를 생성할 수 있습니다.
기술적으로 각 모달리티는 공유 표현 공간으로 변환되어(임베딩 참조) 동일한 네트워크가 함께 처리할 수 있습니다. 현대의 “네이티브 멀티모달” 모델은 처음부터 혼합 데이터로 학습되며 대부분 트랜스포머 아키텍처를 기반으로 합니다. 반면 이미지와 비디오 생성에는 흔히 확산 모델이 사용됩니다.
2025〜2026년에 걸쳐 멀티모달은 주요 파운데이션 모델의 표준이 되었습니다. Gemini, GPT-4o, Claude 등은 텍스트, 이미지, 문서, 오디오, 비디오를 입력으로 받습니다. 이는 “보고” “듣는” 어시스턴트로 나아가는 핵심 단계이며, 현실의 다양한 입력에 작용하는 에이전트 시스템의 토대이기도 합니다.