기초

임베딩 (embedding, 벡터 표현)

단어, 문장, 문서를 고차원 공간 내 벡터로 표현한 것으로, 의미적으로 유사한 항목은 서로 가까운 벡터를 가지며 RAG와 의미 검색의 토대입니다.

**임베딩 (embedding)**은 단어, 문장, 단락, 이미지 또는 다른 어떤 입력의 의미를 나타내는 부동소수점 숫자의 밀집 벡터(보통 256~4096차원)입니다. 핵심 속성은, 의미가 유사한 항목들은 그 공간에서 서로 가까이 위치하고, 관련 없는 항목들은 멀리 떨어진다는 점입니다. 거리는 보통 코사인 유사도나 유클리드 거리로 측정됩니다.

임베딩은 특별히 학습된 모델에 의해 생성됩니다 — 예를 들어 OpenAI text-embedding-3-large, Cohere Embed v3, 또는 bge-m3nomic-embed 같은 오픈 모델. 많은 대규모 언어 모델 (LLM)토큰화 후 첫 번째 층으로 임베딩을 내부적으로 사용합니다 — 각 토큰은 트랜스포머 층에 들어가기 전에 학습된 자신만의 벡터로 매핑됩니다.

주요 응용:

  • 의미 검색: 정확한 단어를 찾는 대신, 시스템이 의미가 유사한 문서를 찾습니다
  • RAG 시스템: 응답 생성 전에 벡터 데이터베이스에서 관련 문서를 검색
  • 분류 및 클러스터링: 수동 레이블링 없이 유사한 콘텐츠를 그룹화
  • 추천: “X를 본 사용자는 Y를 원할 수 있습니다”

임베딩은 모든 현대 의미 검색 시스템과 RAG 아키텍처의 토대입니다 — 이것 없이는 AI 어시스턴트가 자체 문서나 대화 컨텍스트 외부의 지식에 효과적으로 접근할 수 없습니다.

출처

관련 항목