기초
어텐션 메커니즘 (attention)
신경망 기법으로, 모델이 각 입력 토큰의 중요도를 다른 토큰들과의 관계 속에서 가중치로 평가할 수 있게 하며, 현대 트랜스포머의 핵심 메커니즘입니다.
**어텐션 메커니즘 (attention)**은 신경망에서 사용되는 기법으로, 모델이 입력 시퀀스의 각 위치에 대해 출력을 생성할 때 다른 모든 위치가 얼마나 중요한지를 결정할 수 있도록 합니다. 토큰을 엄격히 순차적으로 처리하는 대신, 어텐션은 위치 쌍마다 가중치를 부여하고 그에 따라 정보를 집계합니다.
현대 AI에서 지배적인 변형은 *셀프 어텐션 (self-attention)*으로, query, key, value 벡터가 모두 동일한 시퀀스에서 도출됩니다. 각 토큰은 다른 모든 토큰과의 유사도를 계산하고, 그 결과를 softmax에 통과시켜 가중치를 얻으며, 출력은 value 벡터의 가중합이 됩니다. 멀티헤드 어텐션은 동일한 연산을 여러 학습된 부분 공간에서 병렬로 수행합니다.
어텐션은 2014년 기계 번역을 위해 도입되었고 (Bahdanau 외), 2017년 논문 Attention Is All You Need에서 핵심 구성 요소로 자리 잡으며 트랜스포머 아키텍처를 정의했습니다. 순환 구조를 제거하고 순수 어텐션으로 대체함으로써 GPU에서 대규모 병렬화가 가능해졌고, 오늘날의 대규모 언어 모델이 실용적이 될 수 있었습니다.
Flash Attention, Sliding-Window Attention, Grouped-Query Attention 같은 변형은 메모리와 연산량을 줄여 컨텍스트 길이를 수천 토큰에서 수백만 토큰으로 확장할 수 있게 했습니다.