검색 증강 생성 (RAG)

검색 증강 생성 (RAG, Retrieval-Augmented Generation) 은 대규모 언어 모델에서 정확하고 최신의 답변을 얻기 위한 지배적인 패턴입니다. LLM의 고정된 학습 데이터에만 의존하는 대신, RAG 시스템은 먼저 외부 지식 베이스(내부 문서, 웹 페이지, 고객 데이터 등)에서 관련 청크를 검색하고, 이를 모델의 프롬프트에 컨텍스트로 포함시킵니다.

전형적인 파이프라인 구성은 다음과 같습니다.

인덱싱: 문서를 청크로 분할하고 임베딩으로 변환하여 벡터 데이터베이스에 저장합니다.
쿼리 처리: 사용자 질문을 임베딩하고, 데이터베이스가 의미적으로 가장 유사한 상위 k개의 청크를 반환합니다.
생성: 검색된 청크를 “아래의 컨텍스트만 사용하여 답변하세요”라는 지시와 함께 LLM 프롬프트에 삽입합니다.

RAG는 환각을 줄이고, 재학습 없이 콘텐츠를 최신 상태로 유지하며, 사용자가 검증할 수 있는 인용을 제공합니다. Perplexity, ChatGPT 브라우징 모드, 기업용 지식 어시스턴트, 그리고 대부분의 프로덕션 LLM 애플리케이션의 핵심 엔진입니다.

2025년에는 다양한 변형이 등장했습니다. 하이브리드 검색(벡터 + 키워드), 리랭커(Cohere, Jina), 복잡한 관계 처리를 위한 GraphRAG(Microsoft), 에이전트가 다단계 검색을 계획하는 Agentic RAG 등입니다. 기본 원칙은 변하지 않습니다. 올바른 컨텍스트를 모델에 전달하면 근거 있는 답변이 따라옵니다.

출처

관련 항목