에이전트
검색 증강 생성 (RAG)
검색 시스템과 언어 모델을 결합한 아키텍처 패턴입니다. 모델이 답변하기 전에 외부 지식 소스에서 관련 문서를 검색하여 실제 데이터에 기반한 정확한 출력을 생성합니다.
검색 증강 생성 (RAG, Retrieval-Augmented Generation) 은 대규모 언어 모델에서 정확하고 최신의 답변을 얻기 위한 지배적인 패턴입니다. LLM의 고정된 학습 데이터에만 의존하는 대신, RAG 시스템은 먼저 외부 지식 베이스(내부 문서, 웹 페이지, 고객 데이터 등)에서 관련 청크를 검색하고, 이를 모델의 프롬프트에 컨텍스트로 포함시킵니다.
전형적인 파이프라인 구성은 다음과 같습니다.
- 인덱싱: 문서를 청크로 분할하고 임베딩으로 변환하여 벡터 데이터베이스에 저장합니다.
- 쿼리 처리: 사용자 질문을 임베딩하고, 데이터베이스가 의미적으로 가장 유사한 상위 k개의 청크를 반환합니다.
- 생성: 검색된 청크를 “아래의 컨텍스트만 사용하여 답변하세요”라는 지시와 함께 LLM 프롬프트에 삽입합니다.
RAG는 환각을 줄이고, 재학습 없이 콘텐츠를 최신 상태로 유지하며, 사용자가 검증할 수 있는 인용을 제공합니다. Perplexity, ChatGPT 브라우징 모드, 기업용 지식 어시스턴트, 그리고 대부분의 프로덕션 LLM 애플리케이션의 핵심 엔진입니다.
2025년에는 다양한 변형이 등장했습니다. 하이브리드 검색(벡터 + 키워드), 리랭커(Cohere, Jina), 복잡한 관계 처리를 위한 GraphRAG(Microsoft), 에이전트가 다단계 검색을 계획하는 Agentic RAG 등입니다. 기본 원칙은 변하지 않습니다. 올바른 컨텍스트를 모델에 전달하면 근거 있는 답변이 따라옵니다.