기초
신경망 (neural network)
층 구조의 인공 뉴런들로 구성되어 데이터로부터 패턴을 학습하는 계산 시스템으로, LLM을 포함한 거의 모든 현대 머신러닝 시스템의 핵심 토대입니다.
**신경망 (neural network)**은 뇌에서 느슨하게 영감을 받은 계산 모델입니다. 가중치가 부여된 입력을 받아 비선형 활성화 함수를 적용하고 결과를 다음 층으로 전달하는 단순한 단위 — 인공 뉴런 — 의 층들로 구성됩니다. 레이블이 있는 데이터나 자가 지도 데이터에서 학습을 통해 가중치를 조정함으로써, 신경망은 입력(픽셀, 오디오, 텍스트 토큰)을 출력(클래스, 예측, 임베딩)으로 매핑하는 법을 배웁니다.
전형적인 신경망에는 입력층, 하나 이상의 은닉층, 출력층이 있습니다. 은닉 부분이 깊을 때 — 수십에서 수백 개의 층 — 그 분야는 딥러닝이라고 불립니다. 학습은 *역전파(backpropagation)*에 기반합니다. 출력에서의 오차가 신경망 전체에 걸쳐 미분되며, 확률적 경사 하강법을 통해 각 가중치를 올바른 방향으로 이동시키는 데 사용됩니다.
현대의 신경망은 다양한 형태로 존재합니다. 이미지용 합성곱 신경망, 시계열용 순환 신경망, 관계형 데이터용 그래프 신경망, 그리고 가장 중요한 것은 오늘날의 대규모 언어 모델의 기반이 되는 트랜스포머입니다. 동일한 기본 아이디어 — 단순한 미분 가능 단위들을 학습 가능한 파이프라인으로 쌓는 것 — 가 비전, 음성, 로보틱스, 신약 개발, 코드 생성 시스템들을 구동합니다.