기초
트랜스포머
2017년에 발표된 신경망 아키텍처로, 현대의 거의 모든 대규모 언어 모델을 구동합니다. Self-Attention 메커니즘을 핵심 구조로 사용합니다.
트랜스포머는 2017년 Google의 Vaswani 외 연구진이 발표한 논문 Attention Is All You Need에서 소개된 딥러닝 아키텍처입니다. 언어 작업에서 기존의 순환 신경망(RNN, LSTM)을 대체하였으며, 현재 거의 모든 최첨단 대규모 언어 모델의 근간이 되었습니다. GPT, Claude, Gemini, Llama, Mistral, DeepSeek 모두 트랜스포머를 사용합니다.
트랜스포머의 핵심 혁신은 Self-Attention 메커니즘입니다. 이를 통해 시퀀스 내 모든 위치가 다른 모든 위치를 병렬로 “참조”할 수 있게 됩니다. 이는 RNN의 순차 처리 병목 현상을 해소하고, 훨씬 더 긴 문맥에서의 학습을 가능하게 하며, 현대 GPU 및 TPU에서 효율적으로 확장됩니다.
트랜스포머 레이어는 Multi-Head Self-Attention(데이터 관계를 여러 “시점”으로 파악), 피드포워드 네트워크, 레이어 정규화, 잔차 연결로 구성됩니다. 모델은 이러한 레이어를 24개에서 100개 이상 쌓습니다. 변형으로는 인코더 전용(BERT), 디코더 전용(GPT 계열), 인코더-디코더(T5, 원래의 트랜스포머)가 있습니다.
트랜스포머는 오늘날 언어뿐 아니라 비전(ViT), 음성(Whisper), 단백질 구조 예측(AlphaFold 2), 멀티모달 모델에도 활용됩니다. 파라미터와 학습 데이터를 두 배로 늘릴수록 성능이 계속 향상되는 특성이 현재 프론티어 모델들을 뒷받침하는 원칙입니다.