대규모 언어 모델 (LLM)

대규모 언어 모델 (LLM, Large Language Model) 은 책, 기사, 웹 페이지, 코드 등 수천억에서 수조 단어 규모의 텍스트로 학습된 심층 신경망입니다. 거의 모든 경우 트랜스포머 아키텍처를 기반으로 합니다. 학습이 완료된 모델은 인간 언어의 통계적 패턴을 내부화하여, 프롬프트에 대한 자연스러운 텍스트 생성, 질문 답변, 문서 요약, 번역, 코드 작성 등의 작업을 수행할 수 있습니다.

LLM은 인간적인 의미에서 “이해”하지는 않습니다. 이전 문맥을 바탕으로 가장 확률이 높은 다음 토큰을 예측하는 과정을 수천 번 반복함으로써 문장과 단락을 구성합니다. “생각하는 것처럼 보이는” 착각은 학습 과정에서 흡수한 방대한 패턴의 규모와 다양성에서 비롯됩니다.

“LLM”이라는 용어가 대중화된 것은 2022년 ChatGPT 출시가 계기였습니다. 현재는 수십억에서 1조 개 이상의 파라미터를 가진 모델을 가리키며, API 방식(GPT-5, Claude, Gemini), 오픈 웨이트(Llama, Mistral, DeepSeek), 또는 로컬 런타임(Ollama, llama.cpp)으로 이용할 수 있습니다.

LLM은 이 사이트에서 다루는 거의 모든 AI 제품의 기반입니다. 에이전트, 챗 어시스턴트, RAG 파이프라인, 추론 시스템 모두 LLM 위에 구축됩니다.

출처

관련 항목